基础
- \d :匹配一个数字
- \w :匹配一个字母或数字
- \s :至少有一个空格
- . :可以匹配任意字符
- * :表示任意个字符(包括0个)
- + :表示至少一个字符
- ? :表示0个或1个字符
- {n} :表示n个字符
- {n,m} :表示n到m个字符
要做更精确的匹配,可以用* [ ] *表示范围
eg:
[0-9a-zA-Z_]可以匹配一个数字,字母或者下划线
[0-9a-zA-Z_]+可以匹配至少由一个数字,字母或下划线组成的字符串
- A|B可以匹配A或B,所有(P|p)ython可以匹配‘Python’或者‘python’;
- ^表示行的开头,^\d表示必须以数字开头;
- $表示行的结束,\d$表示必须以数字结束;
- py也可以匹配‘python’,但是加上^py$就变成了整行匹配,就只能匹配py了。
re模块
Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以建议使用r前缀,这样就不用考虑转义的问题。
match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。用法如下:
import re
if re.match(r'正则表达式',字符串):
print('ok')
else:
print('failed')
切分字符串
用正则表达式切分字符串比用固定的字符更灵活,尤其是切分不规则的字符串。
eg:
>>>re.split(r'[\s\,]+','a, b, c d')
['a','b','c','d']
分组
正则表达式还有提取子串的功能。用()
表示的就是哟啊提取的分组。
eg:^(\d{3})-(\d{3,8})$
分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码。
>>>m = re.match(r'^(\d{3})-(\d{3,8})$','010-12345')
>>>m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>>m.groups()
('010','12345')
>>>m.group(0)
'010-12345'
>>>m.group(1)
'010'
>>>m.group(2)
'12345'
如果正则表达式中定义了组,就可以在Match
对象上用group()
方法提取出子串,group(0)
永远是原始字符串,group(1)
,group(2)
…表示第1,2,…个子串。
贪婪匹配
正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符。
eg:匹配出数字后面的0:
>>>re.match(r'^(\d+)(0*)$','102300').groups()
('102300','')
由于\d+
采用贪婪匹配,直接把后面的0
全部匹配了,结果0*
只能匹配空字符串。
必须让\d+
采用非贪婪匹配(也就是尽可能少匹配),才能把后面的0
匹配出来,加个?
就可以让\d+
采用非贪婪匹配:
>>>re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023','00')
编译
当我们在python中使用正则表达式,re模块内部会做两件事:
1.编译正则表达式,如果正则表达式的字符串本身不合法,会报错;
2.用编译后的正则表达式去匹配字符串。
多次使用一个正则表达式时,可以预编译:
>>>import re
#编译
re_t = re.compile(r'^(\d{3})-(\d{3,8})$')
#使用
>>>re_t.match('010-12345').groups()
('010','12345')