文章目录
前言
一直觉得这个东西很神秘,也没有专门学习过。恰好在JAVA编程思想这本书里遇到了,就专门学习一下
首先,正则表达式、linq表达式、lambda 表达式经常听到,以至于我认为他们是一个东西。linq表达式是允许在.NET中像访问数据库一样访问内存数据的.NET语言扩展。lambda表达式是匿名函数
定义
正则表达式,又称规则表达式,使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。本质上就是一个字符串,可以用来匹配符合指定规则的其他字符串
编译器中的词法分析器就会使用正则表达式去匹配代码中的关键字
可以将其理解为增强版本的 通配符。通配符在我处理深度学习数据集时使用过,当时需要搜索文件夹中所有的.txt文件,用到了 * 通配符.
就像*.txt这样
通配符有 * 和 ?,其中前者可以代替多个字符,后者只能代替一个字符
语法
1. 限定符
1.1 问号
区别于通配符中的问号,正则表达式的问号限制的是问号前面一位的有无
比如uesd?,会匹配所有的ues ,uesd。而通配符中的问号限制问号所在的位
1.2 星号
同样区别于通配符中的星号,正则的星号可以代替多个字符,但也只是星号前面一位。比如ab*c,那么会匹配ac, abbbbc, abc, 像abdc就不会了
1.3 加号
匹配加号前一位字符出现一次及以上的字符串。按照上例,就不会匹配ac
1.4 花括号
可以规定限定符前一位字符出现的次数,可以给出次数,也可以给出次数的区间,双闭区间。比如ab{1,6}c
1.5 括号
可以将多个连续的字符组成的字符串视作一个字符处理,比如(ab)c
2. 运算符
2.1 或
配合括号使用,比如a (cat|dog),表示匹配a dog或者a cat.
2.2 字符类,方括号
使用[]实现,比如[abc]表示包含a, b, c的任何字符,等价于或
那就没有必要说什么
还可以在[]中限定范围,这里的语法就比较少见了。
[a-z]+:所有的小写字符
[a-zA-Z]:所有的小写大写字符
[a-zA-Z0-9]:还包括阿拉伯数字
2.3 除了
配合字符类使用,[^0-9]+
表示除了0-9以外的其他所有字符。测试了一下,[^0-9^a-z]+
也是合法的,这应该说明减号这儿做了处理
3. 元字符
通常以反斜杠开头:
\d: 表示数字字符,digit嘛
\D:表示非数字字符
\w:表示英文字符,数字,下划线
\W:表示非单词字符
\s:表示空白符,包括空格和制表符(\t??)
\S:表示非空白字符
.:表示非换行字符之外的所有字符
3. 边界匹配符
^:表示匹配行首。比如^a,只匹配行首为a的情况,注意^写在前面
$:表示匹配行尾,比如a$
需要特别注意是行首行尾,不是单词的首尾,我猜是以换行符为界限
\b:词的边界
\B:非词的边界
\G:前一个匹配的结束
4. 高级概念
4.1 贪婪与懒惰匹配
<><span><b>This is a sample text</b></span><>
使用<.+>进行匹配
按理说前后的<>不应该匹配进来,但结果就是匹配进来了,因为贪婪机制的存在
如果使用<.+?>匹配
?将贪婪匹配改成了懒惰匹配,此时末位的<>不再匹配成功,但是首位的<>还是匹配成功了,看来是底层的实现造成的
5. 实例
十六进制RGB颜色:#[a-fA-F0-9]{6}\b
IPv4地址:\d+.\d+.\d+.\d+ 其中\d+表示长度>0的数字,.使用转义字符\取.的字面意思
但是上面没有考虑到越界的问题
将地址分成两部分,前面是数字+句点的结构,后面就是一个数字
分了几种情况:
(1)如果前面是25,则后面是0-5之间
(2)如果前面是2,则后面是0-4之间
(3)如果前面是0或者1,则后面两位可以取00-99之间 。有时候某个字段只有一位数字,而我们这里写了三位,因此在第一第三位加上问号