Python re.findall中正则表达式(.*?)和参数re.S使用

老兵安帕赫

已于 2024-03-27 14:03:48 修改

阅读量6.2w

点赞数 144

分类专栏： Python 网络爬虫文章标签： Python 正则表达式 re

于 2019-04-10 14:44:44 首次发布

本文链接：https://blog.csdn.net/qq_36556893/article/details/89182067

版权

Python 同时被 2 个专栏收录

64 篇文章 34 订阅

订阅专栏

网络爬虫

3 篇文章 0 订阅

订阅专栏

一、re.findall函数介绍

二、代码如下

三、re.findall中正则表达式(.*?)

四、re.findall中参数re.S的意义

五、运行结果

关于正则表达式的用法，可参看：剑指 Offer 20. 表示数值的字符串，里面有更加具体的例子~

一、re.findall函数介绍

它在re.py中有定义：

def findall(pattern, string, flags=0):
    """Return a list of all non-overlapping matches in the string.

    If one or more capturing groups are present in the pattern, return
    a list of groups; this will be a list of tuples if the pattern
    has more than one group.

    Empty matches are included in the result."""
    return _compile(pattern, flags).findall(string)

返回string中所有与pattern匹配的全部字符串,返回形式为数组。

二、代码如下

后面会讲解代码里的各个部分，先列出来~

import re

str = 'aabbabaabbaa'
#一个"."就是匹配除 \n (换行符)以外的任意一个字符
print(re.findall(r'a.b',str))#['aab', 'aab']
#*前面的字符出现0次或以上
print(re.findall(r'a*b',str))#['aab', 'b', 'ab', 'aab', 'b']
#贪婪，匹配从.*前面为开始到后面为结束的所有内容
print(re.findall(r'a.*b',str))#['aabbabaabb']
#非贪婪，遇到开始和结束就进行截取，因此截取多次符合的结果，中间没有字符也会被截取
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
#非贪婪，与上面一样，只是与上面的相比多了一个括号，只保留括号的内容
print(re.findall(r'a(.*?)b',str))#['a', '', 'a']

str = '''aabbab
         aabbaa
         bb'''#后面多加了2个b
#没有把最后一个换行的aab算进来
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
#re.S不会对\n进行中断
print(re.findall(r'a.*?b',str,re.S))#['aab', 'ab', 'aab', 'aa\n         b']

三、re.findall中正则表达式(.*?)

字符串是

str = 'aabbabaabbaa'

1.一个 . 就是匹配除 \n (换行符)以外的任意一个字符

print(re.findall(r'a.b',str))

['aab', 'aab']

2.* 前面的字符出现0次或以上

print(re.findall(r'a*b',str))

['aab', 'b', 'ab', 'aab', 'b']

3..* 贪婪，匹配从.*前面为开始到后面为结束的所有内容

print(re.findall(r'a.*b',str))

['aabbabaabb']

4..*? 非贪婪，遇到开始和结束就进行截取，因此截取多次符合的结果，中间没有字符也会被截取

print(re.findall(r'a.*?b',str))

['aab', 'ab', 'aab']

5.(.*?) 非贪婪，与上面一样，只是与上面的相比多了一个括号，只保留括号的内容

print(re.findall(r'a(.*?)b',str))

['a', '', 'a']

四、re.findall中参数re.S的意义

1.字符串变为(后面多加了2个b)

str = '''aabbab
         aabbaa
         bb'''

2.参数无re.S，没有把最后一个换行的aab算进来

print(re.findall(r'a.*?b',str))

['aab', 'ab', 'aab']

3.参数有re.S，不会对\n进行中断

print(re.findall(r'a.*?b',str,re.S))

['aab', 'ab', 'aab', 'aa\n         b']

五、运行结果

老兵安帕赫

关注

144
点赞
踩
591

收藏

觉得还不错? 一键收藏
打赏
15
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python re.findall中正则表达式(.*?)和参数re.S使用

关于正则表达式的用法，可参看：剑指 Offer 20. 表示数值的字符串，里面有更加具体的例子~

一、re.findall函数介绍

二、代码如下

三、re.findall中正则表达式(.*?)

1.一个 . 就 是匹配除 \n (换行符)以外的任意一个字符

2.* 前面的字符出现0次或以上

3..* 贪婪，匹配从.*前面为开始到后面为结束的所有内容

4..*? 非贪婪，遇到开始和结束就进行截取，因此截取多次符合的结果，中间没有字符也会被截取

5.(.*?) 非贪婪，与上面一样，只是与上面的相比多了一个括号，只保留括号的内容

四、re.findall中参数re.S的意义

1.字符串变为(后面多加了2个b)

2.参数无re.S，没有把最后一个换行的aab算进来

3.参数有re.S，不会对\n进行中断

五、运行结果

1.一个 . 就是匹配除 \n (换行符)以外的任意一个字符