常用正则表达式
re.match():只能从字符串开头匹配,返回第一和符合的re.match():只能从字符串开头匹配,返回第一个符合的
import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
#^:开头为Hello,\s:匹配空白,\d:匹配数字,后面加{4}表示4个d,/w:匹配字母和下划线
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result) #输出结果
print(result.group()) #输出匹配到的内容
print(result.span())#输出匹配的范围
#匹配目标,部分匹配,利用()匹配1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s(\d+)\sWorld',content)
print(result) #输出结果
print(result.group()) #''中的所有内容
print(result.group(1)) #输出完整匹配到的内容
print(result.span())#输出匹配的范围
import re
content ='Hello 123 4567 World_This is a Regex Demo'
result = re.match('Hello.*Demo$',content) #.代表匹配除换行的字符,*代表匹配前面的字,符无限次,$表示结束
print(result)
print(result .group())
print(result.span())
#贪婪匹配,目的为了选取1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)#.*匹配了最多字符,但是为(\d+).*留一位7,所以结果只有7
print(result)
print(result.group(1))
#非贪婪匹配,目的为了选取1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)#.*?遇到空格停止匹配字符,为(\d+).*留下1234567,所以结果1234567,但是.*?不宜放在结尾
print(result)
print(result.group(1))
#匹配换行符
import re
content = '''Hello 1234567 World_This'
is a Regex Demo'''
result = re.match('^He.*?(\d+).*Demo$',content,re.S)#re.S匹配包括换行符在内的所有字符
print(result)
print(result.group(1))
常用修饰符
遇到匹配的字符与特殊字符相同,在前面加/转移即可,例如/.为匹配.
re.search():从任意位置开始,返回第一个符合的
#r.search()
import re
content = 'Extra string Hello 1234567 World_This is a Regex Demo Extra string'
result = re.search('Hello.*?(\d+).*?Demo',content)
print(result)
re.findall():从任意位置开始,返回所有符合的为列表类型,用循环逐个获取
re.sub():用b替换所有a
#把所有数字删掉
import re
contents ='54aKS4yrsoiRS4ixSL2g'
content = re.sub('\d+,'',contents)
print(content)
re.compile():将正则字符串编译成正则表达式对象,方便之后使用
#删掉所有日期中的时间
import re
contentl ='2016 12 15 12:00'
content2 = '2016-12-17 12:55 ’
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
resultl = re.sub(pattern, '', content1)
result2 = re.sub(pattern ,’’,content2)
result3 = re.sub(pattern,”,content3)
print(result1,result2,result3)
结果:2016-12-15 2016-12-17 2016-12-22