Python学习之路15——Re正则模块

最新推荐文章于 2024-06-23 21:24:22 发布

weixin_33698043

最新推荐文章于 2024-06-23 21:24:22 发布

阅读量97

点赞数

原文链接：http://www.cnblogs.com/visonwong/p/9168553.html

版权

　　学了正则模块后，一直没有相关记录，导致很多知识点很快就忘了，囧。。。今天下决心还是补上欠的账。

1、re模块基本用法

　　re模块用于对Python的正则表达式的操作，用来模糊匹配字符串。

 1 '.'     默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行
 2 '^'     匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
 3 '$'     匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以
 4 '*'     匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac")  结果为['abb', 'ab', 'a']
 5 '+'     匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
 6 '?'     匹配前一个字符1次或0次
 7 '{m}'   匹配前一个字符m次
 8 '{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
 9 '|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
10 '(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
11 '[a-z]' 匹配a到z任意一个字符
12 '[^()]' 匹配除()以外的任意一个字符
13   
14 r' '    转义引号里的字符 针对\字符  详情查看下文
15 '\A'    只从字符开头匹配，re.search("\Aabc","alexabc") 是匹配不到的
16 '\Z'    匹配字符结尾，同$
17 '\d'    匹配数字0-9
18 '\D'    匹配非数字
19 '\w'    匹配[A-Za-z0-9]
20 '\W'    匹配非[A-Za-z0-9]
21 '\s'    匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
22     
23 '(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city")
24 结果{'province': '3714', 'city': '81', 'birthday': '1993'}
25 re.IGNORECASE  忽略大小写 re.search('(\A|\s)red(\s+|$)',i,re.IGNORECASE)

　　　实例展示如下：

 1 #！/user/bin/env ptyhon
 2 # -*- coding:utf-8 -*-
 3 # Author: VisonWong
 4 
 5 
 6 import re
 7 
 8 #'.'用法:默认匹配除\n之外的任意一个字符
 9 res = re.search('.','Vison123Wong321').group()
10 print(res)
11 #V
12 res = re.search('.','Wong321').group()
13 print(res)
14 #W
15 
16 #'^'用法：匹配字符开头，注意必须是字符串的开头
17 res = re.search('^Vison','Vison123Wong321').group()
18 print(res)
19 #V
20 res = re.search('^V','Wong321')
21 print(res)
22 #None
23 #没有匹配到结果，强调必须是匹配整个字符串的开头，而不是你想匹配某一个片段的开头
24 
25 #'$'用法：匹配字符结尾，注意必须是字符串的结尾
26 res = re.search('Wong321$','Vison123Wong321').group()
27 print(res)
28 #Wong321
29 res = re.search('Wong$','Vison123Wong321')
30 print(res)
31 #None
32 #没有匹配到结果，强调必须是匹配整个字符串的结尾，而不是你想匹配某一个片段的结尾
33 
34 #'*'用法：匹配*号前的字符0次或多次，如ab*其实可以匹配到a,ab,abb,abbb....
35 res = re.findall("ab*","cabb3abcbbac")
36 print(res)
37 # ['abb', 'ab', 'a']
38 #注意表示形式：ab*只是匹配*前b0次或多次,(ab)*则是匹配*前(ab)0次或多次
39 
40 #'+'用法：匹配+号前的字符1次或多次，如ab+其实可以匹配到ab,abb,abbb....
41 res = re.findall("ab+","ab+cd+abb+bba")
42 print(res)
43 # ['ab', 'abb']
44 #注意表现形式：ab+只是匹配+前b1次或多次，(ab)+则是匹配+前(ab)1次或多次
45 
46 # '?'用法：匹配？号前一个字符1次或0次，如ab？其实可以匹配到a,ab。
47 res = re.findall("ab?","ab+cd+abb+bba")
48 print(res)
49 #['ab', 'ab', 'a']
50 #注意表现形式：ab?只是匹配?前b1次或0次，(ab)?则是匹配?前(ab)1次或0次
51 
52 #'{m}'用法:匹配前一个字符m次，如ab{3}可以匹配到abbb.
53 res = re.search("ab{3}","cdabbb+bba").group()
54 print(res)
55 #abbb
56 
57 #{n,m}用法：匹配前一个字符n到m次，如ab{1,3}可以匹配到ab,abb,abbb。
58 res = re.findall("ab{1,3}","ab+fg+abbbv*abb")
59 print(res)
60 # ['ab', 'abbb', 'abb']
61 
62 #'|'用法：匹配|左或|右的字符，
63 res = re.search("abc|ABC","ABCBabcCD").group()
64 print(res)
65 # ABC
66 
67 #'[a-z]'用法：匹配a到z任意一个字符
68 res = re.search("[a-z]+","34fsdgdfg76").group()
69 print(res)
70 # fsdgdfg
71 
72 #'[^()]'用法：匹配除()以外的任意一个字符
73 res = re.search("[^()]+","%*%$34fsdgdfg76").group()
74 print(res)
75 # %*%$34fsdgdfg76

　　标志位即模式修正符，不改变正则表达式的情况下，通过模式修正符改变正则表达式的含义，从而实现一些匹配结果的调整等功能：

1 # flags
2 I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # ignore case　　匹配时忽略大小写
3 L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale   做本地化识别匹配
4 U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale       根据Unicode字符及解析字符
5 M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # make anchors look for newline   多行匹配
6 S = DOTALL = sre_compile.SRE_FLAG_DOTALL # make dot match newline      让.匹配包括换行符，即用了该模式修正后，"."匹配就可以匹配任意的字符了
7 X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments

2、贪婪模式、懒惰模式

 1 #！/user/bin/env ptyhon
 2 # -*- coding:utf-8 -*-
 3 # Author: VisonWong
 4 
 5 import re
 6 
 7 result1 = re.search("p.*y", "abcdfphp435pythony_py")  # 贪婪模式
 8 print(result1)
 9 # <_sre.SRE_Match object; span=(5, 21), match='php435pythony_py'>
10 #直至找到最后一个符合条件的y
11 
12 result2 = re.search("p.*?y", "abcdfphp435pythony_py")  # 懒惰模式
13 print(result2)
14 # <_sre.SRE_Match object; span=(5, 13), match='php435py'>
15 #找到第一个符合条件的y即停止

3、match

　　从起始位置开始根据模型去字符串中匹配指定内容：

 1 #！/user/bin/env ptyhon
 2 # -*- coding:utf-8 -*-
 3 # Author: VisonWong
 4 
 5 # match
 6 import re
 7 
 8 obj = re.match('\d+', '123uua123sf')  # 从第一个字符开始匹配一个到多个数字
 9 print(obj)
10 # <_sre.SRE_Match object; span=(0, 3), match='123'>
11 
12 if obj:  # 如果有匹配到字符则执行，为空不执行
13     print(obj.group())  # 打印匹配到的内容
14 # 123

　　匹配IP地址：

 1 #！/user/bin/env ptyhon
 2 # -*- coding:utf-8 -*-
 3 # Author: VisonWong
 4 
 5 
 6 import re
 7 
 8 ip = '255.255.255.253'
 9 result = re.match(r'^([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.'
10                   r'([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$', ip)
11 #注意'\.'可以匹配到'.'
12 print(result)
13 # <_sre.SRE_Match object; span=(0, 15), match='255.255.255.253'>

4、search

　　根据模型去字符串中匹配指定内容（不一定是最开始位置），匹配最前。

 1 # search
 2 import re
 3 
 4 obj = re.search('\d+', 'a123uu234asf')  # 从数字开始匹配一个到多个数字
 5 print(obj)
 6 # <_sre.SRE_Match object; span=(1, 4), match='123'>
 7 
 8 if obj:  # 如果有匹配到字符则执行，为空不执行
 9     print(obj.group())  # 打印匹配到的内容
10 # 123
11 
12 
13 obj = re.search('\([^()]+\)', 'sdds(a1fwewe2(3uusfdsf2)34as)f')  # 匹配最里面（）的内容
14 # 注：[^()]代表匹配除()以外的任何字符，\(\)防止被转义，代表匹配()
15 # 因此合起来就是匹配最里面括号的内容
16 print(obj)
17 # <_sre.SRE_Match object; span=(13, 24), match='(3uusfdsf2)'>
18 
19 if obj:  # 如果有匹配到字符则执行，为空不执行
20     print(obj.group())  # 打印匹配到的内容
21 # (3uusfdsf2)

5、group与groups的区别

group和groups是两个不同的函数。

一般，m.group(N) 返回第N组括号匹配的字符。

而m.group() == m.group(0) == 所有匹配的字符，与括号无关，这个是API规定的。

m.groups() 返回所有括号匹配的字符，以tuple格式（元组格式），不包括m.group(0)，即整个表达式。

m.groups() == (m.group(0), m.group(1), ...)

 1 #！/user/bin/env ptyhon
 2 # -*- coding:utf-8 -*-
 3 # Author: VisonWong
 4 
 5 #group与groups的区别
 6 
 7 import  re
 8 a = "123abc456"
 9 b = re.search("([0-9]*)([a-z]*)([0-9]*)", a)
10 print(b)
11 #<_sre.SRE_Match object; span=(0, 9), match='123abc456'>
12 print(b.group())
13 #123abc456
14 print(b.group(0))
15 #123abc456
16 print(b.group(1))
17 #123
18 print(b.group(2))
19 #abc
20 print(b.group(3))
21 #456
22 print(b.groups())
23 #('123', 'abc', '456')

6、findall

　　上述两中方式均用于匹配单值，即：只能匹配字符串中的一个。

　　如果想要匹配到字符串中所有符合条件的元素，则需要使用 findall；findall没有group用法。

1 # findall
2 import re
3 
4 obj = re.findall('\d+', 'a123uu234asf')  # 匹配多个
5 
6 if obj:  # 如果有匹配到字符则执行，为空不执行
7     print(obj)  # 生成的内容为列表
8 # ['123', '234']

7、sub

　　用于替换匹配的字符串(pattern, repl, string, count=0, flags=0)。

1 #sub
2 import  re
3  
4 content = "123abc456"
5 new_content = re.sub('\d+', 'ABC', content)
6 print(new_content)
7 #ABCabcABC

8、split

　　根据指定匹配进行分组(pattern, string, maxsplit=0, flags=0)。

 1 #！/user/bin/env ptyhon
 2 # -*- coding:utf-8 -*-
 3 # Author: VisonWong
 4 
 5 
 6 # split
 7 import re
 8 
 9 content = "1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )"
10 new_content = re.split('\*', content)  # 用*进行分割，分割为列表
11 print(new_content)
12 # ['1 - 2 ', ' ((60-30+1', '(9-2', '5/3+7/3', '99/4', '2998+10', '568/14))-(-4', '3)/(16-3', '2) )']
13 
14 content = "'1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )'"
15 new_content = re.split('[\+\-\*\/]+', content)# 用加减乘除任一符号分割
16 # new_content = re.split('\*', content, 1)
17 print(new_content)
18 # ["'1 ", ' 2 ', ' ((60', '30', '1', '(9', '2', '5', '3', '7', '3', '99', '4', '2998', '10', '568', '14))',
19 #  '(', '4', '3)', '(16', '3', "2) )'"]
20 
21 inpp = '1-2*((60-30 +(-40-5)*(9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2))'
22 inpp = re.sub('\s*', '', inpp)  # 把空白字符去掉，\s匹配空白字符、\t、\n、\r
23 print(inpp)
24 new_content = re.split('\(([\+\-\*\/]?\d+[\+\-\*\/]?\d+){1}\)', inpp, 1)
25 #同样是匹配第一个最内侧括号是含有两个数字的内容
26 print(new_content)
27 # ['1-2*((60-30+', '-40-5', '*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2))']

9、补充r' ' 转义

　　建立vison.txt如下：

1 fdfdsfds\fds
2 sfdsfds& @$

　　首先要清楚，程序读取文件里的\字符时，添加到列表里面的是\\：

1 import re,sys
2 li = []
3 with open('vison.txt','r',encoding="utf-8") as file:
4     for line in file:
5         li.append(line)
6 print(li)                   # 注意：文件中的单斜杠，读出来后会变成双斜杠
7 # ['fdfdsfds\\fds\n', 'sfdsfds& @$']
8 print(li[0])                # print打印的时候还是单斜杠
9 # fdfdsfds\fds

　　r字符的意义，对字符\进行转义，\只做为字符出现：

 1 import re,sys
 2 li = []
 3 with open('lzl.txt','r',encoding="utf-8") as file:
 4     for line in file:
 5         print(re.findall(r's\\f', line))  #第一种方式匹配
 6         # print(re.findall('\\\\', line))  #第二种方式匹配
 7         li.append(line)
 8 print(li)                   # 注意：文件中的单斜杠，读出来后会变成双斜杠
 9 # ['s\\f']
10 # []
11 # ['fdfdsfds\\fds\n', 'sfdsfds& @$']

　　补充代码：

 1 import re
 2 
 3 res = re.search(r'\\', 'fdfdsfds\\fds')  # 正则中只能这样写 不能写成 r'\' 这样
 4 print(res)                                 #  被匹配内容中双\\代表单\
 5 # <_sre.SRE_Match object; span=(8, 9), match='\\'>
 6 
 7 res = re.search('\\\\', 'fdfdsfds\\fds')
 8 print(res)
 9 # <_sre.SRE_Match object; span=(8, 9), match='\\'>
10 
11 
12 print(r'\\')            # 只能这样写 不能写成r'\' \只能是双数
13 # \\
14 # 如果想值打印单个\ 写成如下
15 print('\\')             # 只能是双数
16 # \

　　总结：文件中的单斜杠\，读出到程序中时是双斜杠\\，print打印出来是单斜杠\。

　　　　　正则匹配文件但斜杠\时,用r'\\'双斜杠去匹配，或者不用r直接用'\\\\'四个斜杠去匹配。

10、compile

Python通过re模块提供对正则表达式的支持。

使用re的一般步骤是先使用re.compile()函数，将正则表达式的字符串形式编译为Pattern实例。

然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。

举一个简单的例子，在寻找一个字符串中所有的英文字符：

1 import re
2 pattern = re.compile('[a-zA-Z]')
3 result = pattern.findall('as3SiOPdj#@23awe')
4 print(result)
5 # ['a', 's', 'S', 'i', 'O', 'P', 'd', 'j', 'a', 'w', 'e']

　　匹配IP地址（255.255.255.255）：

1 import re
2  
3 pattern = re.compile(r'^(([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.){3}([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$')
4 result = pattern.match('255.255.255.255')
5 print(result)
6 # <_sre.SRE_Match object; span=(0, 15), match='255.255.255.255'>