基本语法
findall()方法返回一组字符串,包含被查找字符串中的“所有”匹配文本。
当正则表达式中没有分组,findall()方法返回一个字符串列表。列表中的每个字符串都是一段被查找的文本,它匹配该正则表达式。
>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # 没有分组
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
['415-555-9999', '212-555-0000']
如果在正则表达式中有分组,那么findall()方法将返回元组列表。每个元组表示一个找到的匹配,其中的项就是正则表达式中每个分组的匹配字符串。
>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # 有分组
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
[('415', '555', '9999'), ('212', '555', '0000')]
分组嵌套
但是注意,正则表达式的分组是可以嵌套的,也就是说当正则表达式是如下的形式(最外层加了一层括号):
'((\d\d\d)-(\d\d\d)-(\d\d\d\d))' #含主分组与子分组
我们将这种称之为有主分组与子分组的正则表达式,在这种情况下findall()方法会将其中符合主分组和子分组规则的部分全部保存在元组中。
>>> phoneNumRegex = re.compile(r'((\d\d\d)-(\d\d\d)-(\d\d\d\d))') # 分组嵌套
>>> test='Cell: 415-555-9999 Work: 212-555-0000'
>>> phoneNumRegex.findall(test)
[('415-555-9999', '415', '555', '9999'), ('212-555-0000', '212', '555', '0000')]
所以之后看到一些代码里使用findall()方法时,明明使用了分组却还是在输出中有整个匹配的部分的话,就得擦亮眼睛看看是不是进行了分组的嵌套啦。