学了正则模块后,一直没有相关记录,导致很多知识点很快就忘了,囧。。。今天下决心还是补上欠的账。
1、re模块基本用法
re模块用于对Python的正则表达式的操作,用来模糊匹配字符串。
1 '.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行 2 '^' 匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) 3 '$' 匹配字符结尾,或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以 4 '*' 匹配*号前的字符0次或多次,re.findall("ab*","cabb3abcbbac") 结果为['abb', 'ab', 'a'] 5 '+' 匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb'] 6 '?' 匹配前一个字符1次或0次 7 '{m}' 匹配前一个字符m次 8 '{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb'] 9 '|' 匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC' 10 '(...)' 分组匹配,re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c 11 '[a-z]' 匹配a到z任意一个字符 12 '[^()]' 匹配除()以外的任意一个字符 13 14 r' ' 转义引号里的字符 针对\字符 详情查看下文 15 '\A' 只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的 16 '\Z' 匹配字符结尾,同$ 17 '\d' 匹配数字0-9 18 '\D' 匹配非数字 19 '\w' 匹配[A-Za-z0-9] 20 '\W' 匹配非[A-Za-z0-9] 21 '\s' 匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t' 22 23 '(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city") 24 结果{'province': '3714', 'city': '81', 'birthday': '1993'} 25 re.IGNORECASE 忽略大小写 re.search('(\A|\s)red(\s+|$)',i,re.IGNORECASE)
实例展示如下:
1 #!/user/bin/env ptyhon 2 # -*- coding:utf-8 -*- 3 # Author: VisonWong 4 5 6 import re 7 8 #'.'用法:默认匹配除\n之外的任意一个字符 9 res = re.search('.','Vison123Wong321').group() 10 print(res) 11 #V 12 res = re.search('.','Wong321').group() 13 print(res) 14 #W 15 16 #'^'用法:匹配字符开头,注意必须是字符串的开头 17 res = re.search('^Vison','Vison123Wong321').group() 18 print(res) 19 #V 20 res = re.search('^V','Wong321') 21 print(res) 22 #None 23 #没有匹配到结果,强调必须是匹配整个字符串的开头,而不是你想匹配某一个片段的开头 24 25 #'$'用法:匹配字符结尾,注意必须是字符串的结尾 26 res = re.search('Wong321$','Vison123Wong321').group() 27 print(res) 28 #Wong321 29 res = re.search('Wong$','Vison123Wong321') 30 print(res) 31 #None 32 #没有匹配到结果,强调必须是匹配整个字符串的结尾,而不是你想匹配某一个片段的结尾 33 34 #'*'用法:匹配*号前的字符0次或多次,如ab*其实可以匹配到a,ab,abb,abbb.... 35 res = re.findall("ab*","cabb3abcbbac") 36 print(res) 37 # ['abb', 'ab', 'a'] 38 #注意表示形式:ab*只是匹配*前b0次或多次,(ab)*则是匹配*前(ab)0次或多次 39 40 #'+'用法:匹配+号前的字符1次或多次,如ab+其实可以匹配到ab,abb,abbb.... 41 res = re.findall("ab+","ab+cd+abb+bba") 42 print(res) 43 # ['ab', 'abb'] 44 #注意表现形式:ab+只是匹配+前b1次或多次,(ab)+则是匹配+前(ab)1次或多次 45 46 # '?'用法:匹配?号前一个字符1次或0次,如ab?其实可以匹配到a,ab。 47 res = re.findall("ab?","ab+cd+abb+bba") 48 print(res) 49 #['ab', 'ab', 'a'] 50 #注意表现形式:ab?只是匹配?前b1次或0次,(ab)?则是匹配?前(ab)1次或0次 51 52 #'{m}'用法:匹配前一个字符m次,如ab{3}可以匹配到abbb. 53 res = re.search("ab{3}","cdabbb+bba").group() 54 print(res) 55 #abbb 56 57 #{n,m}用法:匹配前一个字符n到m次,如ab{1,3}可以匹配到ab,abb,abbb。 58 res = re.findall("ab{1,3}","ab+fg+abbbv*abb") 59 print(res) 60 # ['ab', 'abbb', 'abb'] 61 62 #'|'用法:匹配|左或|右的字符, 63 res = re.search("abc|ABC","ABCBabcCD").group() 64 print(res) 65 # ABC 66 67 #'[a-z]'用法:匹配a到z任意一个字符 68 res = re.search("[a-z]+","34fsdgdfg76").group() 69 print(res) 70 # fsdgdfg 71 72 #'[^()]'用法:匹配除()以外的任意一个字符 73 res = re.search("[^()]+","%*%$34fsdgdfg76").group() 74 print(res) 75 # %*%$34fsdgdfg76
标志位即模式修正符,不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能:
1 # flags 2 I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # ignore case 匹配时忽略大小写 3 L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale 做本地化识别匹配 4 U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale 根据Unicode字符及解析字符 5 M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # make anchors look for newline 多行匹配 6 S = DOTALL = sre_compile.SRE_FLAG_DOTALL # make dot match newline 让.匹配包括换行符,即用了该模式修正后,"."匹配就可以匹配任意的字符了 7 X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments
2、贪婪模式、懒惰模式
1 #!/user/bin/env ptyhon 2 # -*- coding:utf-8 -*- 3 # Author: VisonWong 4 5 import re 6 7 result1 = re.search("p.*y", "abcdfphp435pythony_py") # 贪婪模式 8 print(result1) 9 # <_sre.SRE_Match object; span=(5, 21), match='php435pythony_py'> 10 #直至找到最后一个符合条件的y 11 12 result2 = re.search("p.*?y", "abcdfphp435pythony_py") # 懒惰模式 13 print(result2) 14 # <_sre.SRE_Match object; span=(5, 13), match='php435py'> 15 #找到第一个符合条件的y即停止
3、match
从起始位置开始根据模型去字符串中匹配指定内容:
1 #!/user/bin/env ptyhon 2 # -*- coding:utf-8 -*- 3 # Author: VisonWong 4 5 # match 6 import re 7 8 obj = re.match('\d+', '123uua123sf') # 从第一个字符开始匹配一个到多个数字 9 print(obj) 10 # <_sre.SRE_Match object; span=(0, 3), match='123'> 11 12 if obj: # 如果有匹配到字符则执行,为空不执行 13 print(obj.group()) # 打印匹配到的内容 14 # 123
匹配IP地址:
1 #!/user/bin/env ptyhon 2 # -*- coding:utf-8 -*- 3 # Author: VisonWong 4 5 6 import re 7 8 ip = '255.255.255.253' 9 result = re.match(r'^([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.' 10 r'([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$', ip) 11 #注意'\.'可以匹配到'.' 12 print(result) 13 # <_sre.SRE_Match object; span=(0, 15), match='255.255.255.253'>
4、search
根据模型去字符串中匹配指定内容(不一定是最开始位置),匹配最前。
1 # search 2 import re 3 4 obj = re.search('\d+', 'a123uu234asf') # 从数字开始匹配一个到多个数字 5 print(obj) 6 # <_sre.SRE_Match object; span=(1, 4), match='123'> 7 8 if obj: # 如果有匹配到字符则执行,为空不执行 9 print(obj.group()) # 打印匹配到的内容 10 # 123 11 12 13 obj = re.search('\([^()]+\)', 'sdds(a1fwewe2(3uusfdsf2)34as)f') # 匹配最里面()的内容 14 # 注:[^()]代表匹配除()以外的任何字符,\(\)防止被转义,代表匹配() 15 # 因此合起来就是匹配最里面括号的内容 16 print(obj) 17 # <_sre.SRE_Match object; span=(13, 24), match='(3uusfdsf2)'> 18 19 if obj: # 如果有匹配到字符则执行,为空不执行 20 print(obj.group()) # 打印匹配到的内容 21 # (3uusfdsf2)
5、group与groups的区别
group和groups是两个不同的函数。
一般,m.group(N) 返回第N组括号匹配的字符。
而m.group() == m.group(0) == 所有匹配的字符,与括号无关,这个是API规定的。
m.groups() 返回所有括号匹配的字符,以tuple格式(元组格式),不包括m.group(0),即整个表达式。
m.groups() == (m.group(0), m.group(1), ...)
1 #!/user/bin/env ptyhon 2 # -*- coding:utf-8 -*- 3 # Author: VisonWong 4 5 #group与groups的区别 6 7 import re 8 a = "123abc456" 9 b = re.search("([0-9]*)([a-z]*)([0-9]*)", a) 10 print(b) 11 #<_sre.SRE_Match object; span=(0, 9), match='123abc456'> 12 print(b.group()) 13 #123abc456 14 print(b.group(0)) 15 #123abc456 16 print(b.group(1)) 17 #123 18 print(b.group(2)) 19 #abc 20 print(b.group(3)) 21 #456 22 print(b.groups()) 23 #('123', 'abc', '456')
6、findall
上述两中方式均用于匹配单值,即:只能匹配字符串中的一个。
如果想要匹配到字符串中所有符合条件的元素,则需要使用 findall;findall没有group用法。
1 # findall 2 import re 3 4 obj = re.findall('\d+', 'a123uu234asf') # 匹配多个 5 6 if obj: # 如果有匹配到字符则执行,为空不执行 7 print(obj) # 生成的内容为列表 8 # ['123', '234']
7、sub
用于替换匹配的字符串(pattern, repl, string, count=0, flags=0)。
1 #sub 2 import re 3 4 content = "123abc456" 5 new_content = re.sub('\d+', 'ABC', content) 6 print(new_content) 7 #ABCabcABC
8、split
根据指定匹配进行分组(pattern, string, maxsplit=0, flags=0)。
1 #!/user/bin/env ptyhon 2 # -*- coding:utf-8 -*- 3 # Author: VisonWong 4 5 6 # split 7 import re 8 9 content = "1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )" 10 new_content = re.split('\*', content) # 用*进行分割,分割为列表 11 print(new_content) 12 # ['1 - 2 ', ' ((60-30+1', '(9-2', '5/3+7/3', '99/4', '2998+10', '568/14))-(-4', '3)/(16-3', '2) )'] 13 14 content = "'1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )'" 15 new_content = re.split('[\+\-\*\/]+', content)# 用加减乘除任一符号分割 16 # new_content = re.split('\*', content, 1) 17 print(new_content) 18 # ["'1 ", ' 2 ', ' ((60', '30', '1', '(9', '2', '5', '3', '7', '3', '99', '4', '2998', '10', '568', '14))', 19 # '(', '4', '3)', '(16', '3', "2) )'"] 20 21 inpp = '1-2*((60-30 +(-40-5)*(9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2))' 22 inpp = re.sub('\s*', '', inpp) # 把空白字符去掉,\s匹配空白字符、\t、\n、\r 23 print(inpp) 24 new_content = re.split('\(([\+\-\*\/]?\d+[\+\-\*\/]?\d+){1}\)', inpp, 1) 25 #同样是匹配第一个最内侧括号是含有两个数字的内容 26 print(new_content) 27 # ['1-2*((60-30+', '-40-5', '*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2))']
9、补充r' ' 转义
建立vison.txt如下:
1 fdfdsfds\fds 2 sfdsfds& @$
首先要清楚,程序读取文件里的\字符时,添加到列表里面的是\\:
1 import re,sys 2 li = [] 3 with open('vison.txt','r',encoding="utf-8") as file: 4 for line in file: 5 li.append(line) 6 print(li) # 注意:文件中的单斜杠,读出来后会变成双斜杠 7 # ['fdfdsfds\\fds\n', 'sfdsfds& @$'] 8 print(li[0]) # print打印的时候还是单斜杠 9 # fdfdsfds\fds
r字符的意义,对字符\进行转义,\只做为字符出现:
1 import re,sys 2 li = [] 3 with open('lzl.txt','r',encoding="utf-8") as file: 4 for line in file: 5 print(re.findall(r's\\f', line)) #第一种方式匹配 6 # print(re.findall('\\\\', line)) #第二种方式匹配 7 li.append(line) 8 print(li) # 注意:文件中的单斜杠,读出来后会变成双斜杠 9 # ['s\\f'] 10 # [] 11 # ['fdfdsfds\\fds\n', 'sfdsfds& @$']
补充代码:
1 import re 2 3 res = re.search(r'\\', 'fdfdsfds\\fds') # 正则中只能这样写 不能写成 r'\' 这样 4 print(res) # 被匹配内容中双\\代表单\ 5 # <_sre.SRE_Match object; span=(8, 9), match='\\'> 6 7 res = re.search('\\\\', 'fdfdsfds\\fds') 8 print(res) 9 # <_sre.SRE_Match object; span=(8, 9), match='\\'> 10 11 12 print(r'\\') # 只能这样写 不能写成r'\' \只能是双数 13 # \\ 14 # 如果想值打印单个\ 写成如下 15 print('\\') # 只能是双数 16 # \
总结:文件中的单斜杠\,读出到程序中时是双斜杠\\,print打印出来是单斜杠\。
正则匹配文件但斜杠\时,用r'\\'双斜杠去匹配,或者不用r直接用'\\\\'四个斜杠去匹配。
10、compile
Python通过re模块提供对正则表达式的支持。
使用re的一般步骤是先使用re.compile()函数,将正则表达式的字符串形式编译为Pattern实例。
然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。
举一个简单的例子,在寻找一个字符串中所有的英文字符:
1 import re 2 pattern = re.compile('[a-zA-Z]') 3 result = pattern.findall('as3SiOPdj#@23awe') 4 print(result) 5 # ['a', 's', 'S', 'i', 'O', 'P', 'd', 'j', 'a', 'w', 'e']
匹配IP地址(255.255.255.255):
1 import re 2 3 pattern = re.compile(r'^(([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.){3}([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$') 4 result = pattern.match('255.255.255.255') 5 print(result) 6 # <_sre.SRE_Match object; span=(0, 15), match='255.255.255.255'>