正则表达式通过使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。正则表达式常被用来检索、替换那些匹配某个模板的文本。Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先使用re.compile()函数,将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。
无论是python还是正则表达式都是区分大小写的。
. 字符在正则表达式中可以代表任何一个字符,包括他本身。
+ 的作用是将前面的一个字符或一个子表达式重复一遍或者很多遍。
* 跟在其他符号后面表达可以匹配到他0次或者多次。
[] 代表匹配里面的字符中任意一个。
[^] 代表内部包含的字符以外的都能匹配。
正则表达式 | 代表的匹配字符 |
---|---|
[0-9] | 0123456789任意之一 |
[a-z] | 小写字母任意之一 |
[A-Z] | 大写字母任意之一 |
\d | 等同于[0-9] |
\D | 等同于[^0-9]匹配非数字 |
\w | 等同于[a-z0-9A-Z_]匹配大小写字母、数字和下划线 |
\W | 等同于[^a-z0-9A-Z_]等同于上一条取非 |
元字符 | 说明 |
---|---|
. | 代表任意字符 |
| | 逻辑或操作符 |
[ ] | 匹配内部的任一字符或子表达式 |
[^] | 对字符集和取非 |
- | 定义一个区间 |
\ | 对下一字符取非(通常是普通变特殊,特殊变普通) |
* | 匹配前面的字符或者子表达式0次或多次 |
*? | 惰性匹配上一个 |
+ | 匹配前一个字符或子表达式一次或多次 |
+? | 惰性匹配上一个 |
? | 匹配前一个字符或子表达式0次或1次重复 |
{n} | 匹配前一个字符或子表达式 |
{m,n} | 匹配前一个字符或子表达式至少m次至多n次 |
{n,} | 匹配前一个字符或者子表达式至少n次 |
{n,}? | 前一个的惰性匹配 |
^ | 匹配字符串的开头 |
\A | 匹配字符串开头 |
$ | 匹配字符串结束 |
[\b] | 退格字符 |
\c | 匹配一个控制字符 |
\d | 匹配任意数字 |
\D | 匹配数字以外的字符 |
\t | 匹配制表符 |
\w | 匹配任意数字字母下划线 |
\W | 不匹配数字字母下划线 |