目录
贪婪与非贪婪
贪婪匹配:.* 会匹配尽可能多的字符
非贪婪匹配:.*?会匹配尽可能少的字符
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hel.*(\d+).*',content)
result1 = re.match('^Hel.*(\d+).*?',content)
result2 = re.match('^Hel.*?(\d+).*',content)
result3 = re.match('^Hel.*?(\d+).*?',content)
print(result.group(1))
print(result1.group(1))
print(result2.group(1))
print(result3.group(1))
运行结果
代码解释:
正则表达式中.*后面是\d+,也就是至少一个数字,并没有指定具体数字,因此.*就尽可能匹配多的字符,这里就把123456匹配掉了。而使用.*?就会保留123456,尽可能少的匹配字符,没有匹配掉123456。
修饰符
修饰符 | 描述 |
re.I | 使匹配对大小写不敏感 |
re.L | 做本地化识别匹配 |
re.M | 多行匹配,影响^和$ |
re.S | 使.匹配包括换行在内的所有字符 |
re.U | 根据Unicode字符集解析字符。这个标准影响\w,\W,\b,\B |
re.X | 该标志通过给予你更灵活的格式以便你将正则表达式写得更容易理解 |
在网页中较为常用的是re.S,re.I
转义匹配(\)
import re
content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com',content)
print(result)
运行结果
sub()
修改文本,替换文本(与replace相似)
import re
content = '4aK54yr5oiR54ixL2'
content = re.sub('\d+','',content)
print(content)
运行结果
compile()
定义:将正则字符串编译成正则表达式对象,
以便在后面的匹配中复用。
import re
content1 = '2016-12-15 10:00'
content2 = '2016-11-14 12:50'
content3 = '2016-10-11 11:40'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern,'',content1)
result2 = re.sub(pattern,'',content2)
result3 = re.sub(pattern,'',content3)
print(result1,result2,result3)
运行结果