参考资料
1、揭开正则表达式的神秘面纱:http://www.regexlab.com/zh/regref.htm
文章摘要
- 引言
正则表达式,就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。
正则表达式可以用来:
(1)验证字符串是否符合指定特征,比如验证是否是合法的邮件地址
(2)用来查找字符串,从一个长的文本中查找符合指定特征的字符串,比查找固定字符串更加灵活方便
(3)用来替换,比普通的替换更强大 - 1.正则表达式规则
- 1.1普通字符
字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是”普通字符”。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。 - 1.2简单的转义字符
表达式 | 可匹配 |
---|---|
\r,\n | 代表回车和换行符 |
\t | 制表符 |
\\ | 代表”\”本身 |
\^ | 匹配^符号本身 |
\$ | 匹配$符号本身 |
\. | 匹配小数点(.)符号本身 |
1.3能够与‘多种字符’匹配的表达式
正则表达式中的一些表示方法,可以匹配 ‘多种字符’ 其中的任意一个字符表达式 可匹配 \d 任意一个数字,0~9 中的任意一个 \w 任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个 \s 包括空格、制表符、换页符等空白字符的其中任意一个 . 小数点可以匹配除了换行符(\n)以外的任意一个字符 - 1.4自定义能够匹配 ‘多种字符’ 的表达式
使用方括号 [ ] 包含一系列字符,能够匹配其中任意一个字符
用 [^ ] 包含一系列字符,则能够匹配其中字符之外的任意一个字符
表达式 | 可匹配 |
---|---|
[ab5@] | 匹配 “a” 或 “b” 或 “5” 或 “@” |
[^abc] | 匹配 “a”,”b”,”c” 之外的任意一个字符 |
[f-k] | 匹配 “f”~”k” 之间的任意一个字母 |
[^A-F0-3] | 匹配 “A”~”F”,”0”~”3” 之外的任意一个字符 |
- 1.5修饰匹配次数的特殊符号
使用方法是:”次数修饰”放在”被修饰的表达式”后边,比如:”[bcd][bcd]” 可以写成 “[bcd]{2}”。
表达式 | 作用 |
---|---|
{n} | 表达式重复n次,比如:”\w{2}” 相当于 “\w\w”;”a{5}” 相当于 “aaaaa” |
{m,n} | 表达式至少重复m次,最多重复n次,比如:”ba{1,3}”可以匹配 “ba”或”baa”或”baaa” |
{m,} | 表达式至少重复m次,比如:”\w\d{2,}”可以匹配 “a12”,”_456”,”M12344”… |
? | 匹配表达式0次或者1次,相当于 {0,1} |
+ | 表达式至少出现1次,相当于 {1,} |
* | 表达式不出现或出现任意次,相当于 {0,} |
- 1.6其他一些代表抽象意义的特殊符号
表达式 | 作用 |
---|---|
^ | 与字符串开始的地方匹配,不匹配任何字符 |
$ | 与字符串结束的地方匹配,不匹配任何字符 |
\b | 匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符 |
| | 左右两边表达式之间 “或” 关系,匹配左边或者右边 |
( ) | (1). 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰 (2). 取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到 |