正则表达式

前言

一直觉得这个东西很神秘,也没有专门学习过。恰好在JAVA编程思想这本书里遇到了,就专门学习一下

首先,正则表达式、linq表达式、lambda 表达式经常听到,以至于我认为他们是一个东西。linq表达式是允许在.NET中像访问数据库一样访问内存数据的.NET语言扩展。lambda表达式是匿名函数

定义

正则表达式,又称规则表达式,使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。本质上就是一个字符串,可以用来匹配符合指定规则的其他字符串

编译器中的词法分析器就会使用正则表达式去匹配代码中的关键字

可以将其理解为增强版本的 通配符。通配符在我处理深度学习数据集时使用过,当时需要搜索文件夹中所有的.txt文件,用到了 * 通配符.
就像*.txt这样

通配符有 * 和 ?,其中前者可以代替多个字符,后者只能代替一个字符

语法

1. 限定符

1.1 问号

区别于通配符中的问号,正则表达式的问号限制的是问号前面一位的有无
比如uesd?,会匹配所有的ues ,uesd。而通配符中的问号限制问号所在的位

1.2 星号

同样区别于通配符中的星号,正则的星号可以代替多个字符,但也只是星号前面一位。比如ab*c,那么会匹配ac, abbbbc, abc, 像abdc就不会了

1.3 加号

匹配加号前一位字符出现一次及以上的字符串。按照上例,就不会匹配ac

1.4 花括号

可以规定限定符前一位字符出现的次数,可以给出次数,也可以给出次数的区间,双闭区间。比如ab{1,6}c

1.5 括号

可以将多个连续的字符组成的字符串视作一个字符处理,比如(ab)c

2. 运算符

2.1 或

配合括号使用,比如a (cat|dog),表示匹配a dog或者a cat.

2.2 字符类,方括号

使用[]实现,比如[abc]表示包含a, b, c的任何字符,等价于或
那就没有必要说什么
还可以在[]中限定范围,这里的语法就比较少见了。
[a-z]+:所有的小写字符
[a-zA-Z]:所有的小写大写字符
[a-zA-Z0-9]:还包括阿拉伯数字

2.3 除了

配合字符类使用,[^0-9]+表示除了0-9以外的其他所有字符。测试了一下,[^0-9^a-z]+也是合法的,这应该说明减号这儿做了处理

3. 元字符

通常以反斜杠开头:
\d: 表示数字字符,digit嘛
\D:表示非数字字符
\w:表示英文字符,数字,下划线
\W:表示非单词字符
\s:表示空白符,包括空格和制表符(\t??)
\S:表示非空白字符
.:表示非换行字符之外的所有字符

3. 边界匹配符

^:表示匹配行首。比如^a,只匹配行首为a的情况,注意^写在前面
$:表示匹配行尾,比如a$

需要特别注意是行首行尾,不是单词的首尾,我猜是以换行符为界限

\b:词的边界
\B:非词的边界
\G:前一个匹配的结束

4. 高级概念

4.1 贪婪与懒惰匹配

<><span><b>This is a sample text</b></span><> 
使用<.+>进行匹配
按理说前后的<>不应该匹配进来,但结果就是匹配进来了,因为贪婪机制的存在

如果使用<.+?>匹配
?将贪婪匹配改成了懒惰匹配,此时末位的<>不再匹配成功,但是首位的<>还是匹配成功了,看来是底层的实现造成的

5. 实例

十六进制RGB颜色:#[a-fA-F0-9]{6}\b
IPv4地址:\d+.\d+.\d+.\d+ 其中\d+表示长度>0的数字,.使用转义字符\取.的字面意思
但是上面没有考虑到越界的问题
在这里插入图片描述
将地址分成两部分,前面是数字+句点的结构,后面就是一个数字
分了几种情况:
(1)如果前面是25,则后面是0-5之间
(2)如果前面是2,则后面是0-4之间
(3)如果前面是0或者1,则后面两位可以取00-99之间 。有时候某个字段只有一位数字,而我们这里写了三位,因此在第一第三位加上问号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值