二、正则表达式的语法
1.界定符
界定符表示一个正则表达式的开始和结束
例如:/[0-9]/ 此外还可以:#[0-9]# 或者 {[0-9]} (大括弧为了避免产生歧义,一般不建议使用唷!!!)
ps喜欢用哪种界定符,就看小伙伴的心情啦!!!
2.正则表达式工具
regexpal,在浏览器中就能使用
3.原子概念
(1)可见原子:Unicode编码表中用键盘输出后肉眼可见的字符
标点 ;“”_ ? . 等等
英文字母数字 a-z A-Z 0-9
汉字、日文、阿拉伯文等其他语言文字
∑,∈,∮,≌等数理化公式符号
其他可见字符号
(2)不可见原子:Unicode编码表中用键盘输出后肉眼不可见的字符
换行符 \n
回车 \r
制表符 \t
空格
其他不可见符号
4.不可见原子的正则表达式
若要筛选空格,直接敲一个空格,回车则输入\n,但此时没有颜色区分,可以\n+回车后的第一个原子。
5.元字符之原子的筛选方式
(1)| 匹配两个或者多个分支选择
(2)[] 匹配方括号中的任意一个原子
(3)[^] 匹配除方括号中的原子之外的任意字符
注意:^放到第一个,则表示排除,否则默认为匹配^
6.元字符之原子的集合(只能死记硬背了)
. 匹配除换行符之外的任意字符
\d 匹配任意一个十进制数字,即[0-9]
\D 匹配任意一个非十进制数字,即[^0-9]
\s 匹配一个不可见原子,即[\f\n\r\t\v]
\S 匹配一个可见原子,即[^\f\n\r\t\v]
\w 匹配任意一个数字、字母或下划线,即[0-9a-zA-Z_]
\W 匹配任意一个非数字、字母或下划线,即[^0-9a-zA-Z_]
7.量词
{n} 表示其前面的原子恰好连续出现n次
{n,} 表示其前面的原子最少出现n次
{n,m} 表示其前面的原子最少出现n次,最多出现m次
* 匹配0次、1次或者多次其之前的原子,即{0,}
+ 匹配1次或者多次其之前的原子,即{1,}
? 匹配0次或者1次其之前的原子,即{0,1}
8.边界控制与模式单元
^ 匹配字符串开始的位置(限制以什么开头,如不能有空格)
$ 匹配字符串结尾的位置
() 匹配其中的整体为一个原子