正则表达式常用场合:
1. 测试字符串的某个模式。例如,可以对一个输入字符串进行测试,看在该字符串是否存在一个电话号码模式或一个信用卡号码模式。这称为数据有效性验证。
2. 替换文本。可以在文档中使用一个正则表达式来标识特定文字,然后可以全部将其删除,或者替换为别的文字。
3. 根据模式匹配从字符串中提取一个子字符串。可以用来在文本或输入字段中查找特定文字
基础知识:
1.匹配不同类型的字符
字符类 | 匹配的字符 |
\d | 匹配一个数字字符。等价于 [0-9]。 |
\D | 匹配一个非数字字符。等价于 [^0-9]。 |
\w | 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。 |
\W | 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
. (点号) | 任一字符 |
[...] | 括号中的任一字符,例如[abc]匹配a或b或c |
[^…] | 非括号中的任一字符,例如[^abc]匹配abc以外的字符 |
2.定位控制字符
^ | 其后的模式必须在字符串的开始处,如果是多行则在任一行的开始 |
$ | 前面的模式必须在一行的末尾,如果是多行,则在任意行的末尾 |
\A | 前面的模式必须在字符串的开始处;多行标志被忽略 |
\z | 前面的模式必须在字符串的末尾处,多行标志被忽略 |
\Z | 前面的模式必须位于字符串的末尾或位于换行符前 |
\b | 匹配一个单词字符的开始,单词字符是[a-zA-Z0-9]中的一位 |
\B | 匹配一个非单词边界的位置, 不在一个单词的开始 |
3.指定重复字符
{n} | 匹配前面的字符n次,如 jiange{5},则匹配jiangeeeee |
{n,} | 匹配前面的字符最少n次,注意n后面有逗号 |
{n,m} | 匹配前面的字符n至m次 |
? | 匹配前面的字符0次或1次 |
+ | 匹配前面的字符至少1次 |
* | 匹配前面的字符至少0次,注意与+的区别,比如jiange*,可以匹配jiang,而jiange+不可以 |
4.特殊控制类
| | 指定字符替换,即该位置可以是|两边的任一个表达式 |
5. 特殊字符转义序列
\\ | 匹配”\” |
\. | 匹配“.” |
\* | 匹配“*” |
\( | 匹配“(” |
\) | 匹配”)” |
\? | 匹配“?“ |
\+ | 匹配“+“ |
\| | 匹配“|“ |
\{ | 匹配“{“ |
\} | 匹配“}“ |
\^ | 匹配“^“ |
\$ | 匹配“$“ |
\n | 匹配换行符 |
\r | 匹配回车 |
\t | 匹配Tab键 |
\v | 匹配垂直制表符 |
\f | 匹配换页符 |
\nnn | 匹配一个三位八进制数指定的ASCII字符,如\103匹配C |
\xnn | 匹配一个二位16进制数指定的ASCII字符,例如\x43匹配C |
\unnnn | 匹配一个4位16进制数指定的Unicode字符 |
\cV | 匹配一个控制字符,(如复制Ctrl+C) |
6.分组
6.1 捕获组:()
例子: \d([abc]\d).
字符串为 2b3x2333
则结果为:2b3x,b3
6.2 非捕获(?:)
例子: \d(?:[abc]\d).
结果为:2b3x
*通过上面对比可以知道,捕获组中,括号内的结果也会作为一个结果被捕获。
实践部分
1. 匹配IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
分析:我们知道,IP地址形如 A.B.C.D,其中ABCD的取值为0到255
对于上面这个表达式,我们先拿出核心部分:(2[0-4]\d | 25[0-5] | [01]?\d\d?)
它由3个部分组成:2[0-4]\d、25[0-5]、[01]?\d\d?
他们分别匹配区间如下:
2[0-4]\d :[200,249]
25[0-5] :[250,255]
[01]?\d\d? :当两个问号都代表取0个前一字符时,就剩下\d,匹配1位数;
当第一个问号代表取0个前一字符,第二个取1个前一字符,则为\d\d,匹配[00,99](2位数,填充0)
当第一个问号代表取1个前一字符,第二个取0个前一字符,则为[01]\d,匹配[00,19](2位数,填充0)
当两个问号都代表取1个前一字符,则为[01]\d\d,匹配[000,199](3位数,填充0)
总结起来就是匹配0到199,其中1位数和2位数可以在前面填充0,也可以不填充0
所以2[0-4]\d、25[0-5]、[01]?\d\d? 匹配的是0到255,前面的0可填充可不填充。
假设该式为A,则最初的表达式可表示为(A)\.{3}(A),展开来即(A).(A).(A).(A)。
2. 验证用户密码:^[a-zA-Z]\w{5,17}$
分析:密码正确格式为:以字母开头,长度在6-18之间,只能包含字符、数字和下划线
3. 验证Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
分析:([-+.]\\w+)* 表示 -或+或.开头,后面跟1个或者多个字母或数字或下划线,整体出现0次或多次,其他部分同理
好了~就说到这了,本篇只是正则表达式的一些基础,还有一些高级的特性我还没学习掌握~有兴趣的同学可以去网上找资源。