13.5.1 re模块的分组匹配
正则表达式是可以分组的,分组就是用一对圆括号“()”括起来的正则表达式,匹配出的内容就表示一个分组。从正则表达式的左边开始看,看到的第一个左括号“(” 表示第一个分组以此类推。有一个隐含的全局分组(就是 0 )是整个正则表达式。
分组完后,想要获得某个分组的内容,直接使用 group() 或者groups()函数提取即可
import re
p1 = re.compile('\d-\d-\d') #不分组
m1 = p1.match('1-2-3')
print(m1.groups()) #()
print(m1.group()) #1-2-3
p2 = re.compile('(\d)-(\d)-(\d)') #分组
m2 = p2.match('1-2-3')
print(m2.groups()) #('1','2','3')
print(m2.group()) #1-2-3
m3 = re.findall('(\d)-(\d)-(\d)','1-2-3-4-5-6')
print(m3) #[('1', '2', '3'), ('4', '5', '6')]
执行结果:
()
1-2-3
('1', '2', '3')
1-2-3
[('1', '2', '3'), ('4', '5', '6')]
注意:match和search函数返回的是Match对象,二findall函数返回的则是一个包含分组后结果list对象
13.5.2 贪婪匹配和非贪婪匹配
贪婪匹配和非贪婪模式指的是限定操作符是尽可能多地匹配字符串还是尽可能少地匹配字符串
贪婪匹配指的是限定符尽可能多地匹配字符串。默认情况下限定符都是贪婪匹配。
非贪婪匹配指的是限定符尽可能少地匹配字符串,在限定符后加上 “?” 表示非贪婪匹配
import re
m1 =re.match(r'.+','Are you ok? No,I an not ok.') #贪婪
print(m1.group())
m2 = re.match(r'.+?','Are you ok? No,I an not ok.') #非贪婪
print(m2.group())
m3 = re.findall(r'<.+>',r'<this><is><an><example>') #贪婪
print(m3)
m4 = re.findall(r'<.+?>',r'<this><is><an><example>') #非贪婪
print(m4)
执行结果:
Are you ok? No,I an not ok.
A
['<this><is><an><example>']
['<this>', '<is>', '<an>', '<example>']
13.5.3 零宽断言
零宽断言就是一种零宽度的匹配,它匹配的内容不会保存到匹配结果中,表达式的匹配内容只是代表了一个位置而已,如标明某个字符的右边界是怎样的构造
断言字符介绍:书本272页
例如:
import re
s = r'eating apple seeing paper watching movie'
m1 = re.findall(r'(\b\w+?)ing',s)
print(m1) #['eat','see','watch']
m2 = re.findall(r'(.+?)(?=ing)',s)
print(m2) #['eat', 'ing apple see', 'ing paper watch']
m3=re.findall(r'(.+?)(?<=ing)',s)
print(m3) #['eating', ' apple seeing', ' paper watching']
s= 'unite one unethical ethics use untie ultimate'
m4 = re.findall(r'\b(?!un)\w+\b',s)
print(m4) #['one', 'ethics', 'use', 'ultimate']
m5 = re.findall(r'(?<![a-z])\d{3,}','abc123,123,4567')
print(m5) #['123', '4567']
执行结果如下:
['eat', 'see', 'watch']
['eat', 'ing apple see', 'ing paper watch']
['eating', ' apple seeing', ' paper watching']
['one', 'ethics', 'use', 'ultimate']
['123', '4567']