正则表达式
re.M和re.I为正则表达式修饰符的可选标志
re.I表示使匹配对大小写不敏感,re.M表示多行匹配,影响^(字符串开头)和$(结尾)
import re
line = 'cats are smarter than dogs'
matchObj = re.match(r'(.*) are (.*?).*', line, re.M | re.I)
if matchObj:
print('matchObj.group():', matchObj.group())
print('matchObj.group(1):', matchObj.group(1))
print('matchObj.group(2):', matchObj.group(2))
else:
print('no match!')
re.match与re.search的区别:
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败
re.search匹配整个字符串,直到找到一个匹配
matchObj = re.match(r'dogs', line, re.M | re.I)
if matchObj:
print('match-->matchObj.group():', matchObj.group())
else:
print('no match!')
matchObj = re.search(r'dogs', line, re.M | re.I)
if matchObj:
print('search-->matchObj.group():', matchObj.group())
else:
print('no match!')
re.sub用于替换字符串中的匹配项
phone = '200-12138-998 #这是一个电话号码'
num = re.sub(r'#.*$', '', phone) # 删除注释 $表示匹配字符串的末尾
print('电话号码:', num)
num = re.sub(r'\D', '', phone) # 删除非数字的内容 \D表示匹配任意非数字
print('电话号码:', num)