python中“（.）” 、 “（.？）”的区别

weixin_888988

已于 2022-10-31 22:49:29 修改

阅读量3.1k

点赞数 2

分类专栏： Python随笔文章标签： python 正则表达式后端

于 2020-07-08 15:36:17 首次发布

原文链接：https://blog.csdn.net/m0_37962192/article/details/103768541?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

版权

Python随笔专栏收录该内容

120 篇文章 2 订阅

订阅专栏

学习更多相关知识，关注博主知乎账号，用户名Trustintruth https://www.zhihu.com/people/suo-yi-xin-90/activities

简单说，使用“（.*）”得到的是只有一个元素的列表，里面是很长的字符串

“（.*？）”则是得到包含几个元素的列表，每个元素直接对应原来文本中不同的位置匹配的项。

例如：十个人肩并肩的并排走着，使用“（.*）”的取到了从第一个人到最后一个人的所有东西在一起，后者则是分别取下了十个人的东西

前者成为贪婪模式，获取最长的满足条件的字符串

后者称为非贪婪模式，获取最短的能满足条件的字符串。

在scrapy时，我希望能够从url里提取出一些信息，但是按照网上的例子总是不成功，可把我给急坏了，时间过得太快了，我的急躁而不知如何的毛病似乎还没有改。

首先在正则表达式中，通过（）是可以代表要提取的内容的，如（参考https://blog.csdn.net/weixin_43487902/article/details/88407311）

我通过测试发现：

（.*?）与（.*）是不同的，正如资料所示，（.*）是贪婪的，比如对于a123ba123b,正则表达式re.findall('（.*）', 'a123ba123b')得到的结果是

而（.*?），惊讶的发现得到的是两个空

这是因为（.*?）是非贪婪的，即匹配最少数量的就够了，所以匹配了a之后的两个空字符串，如果你将表达式改为

a(.*?)b，下面的结果就说明了是非贪婪造成了上面得到的结果为空，这也是我在做字符串提取时，提取到的结果一直是空字符串的原因。

>>> re.findall('a(.*?)b', 'a123ba123b')
['123', '123']
>>>
>>> re.findall('a(.*)b', 'a123ba123b')
['123ba123']
>>>
>>>
>>> re.findall('(.*)', 'a123ba123b')
['a123ba123b', '']
>>>
>>> re.findall('(.*?)', 'a123ba123b')
['', '', '', '', '', '', '', '', '', '', '']
>>>

最终通过下面这种方法提取到了url中的信息（通过

re.findall('weibo.com/(.*?)', 'https://weibo.com/a454656b43534543a1232435b546546') 得到的将会是空
）

可以做这样改变：

>>> re.findall('weibo.com/(.*?)$', 'https://weibo.com/a454656b43534543a1232435b546546') 
['a454656b43534543a1232435b546546']
>>>

>>> re.findall('weibo.com/(.*)', 'https://weibo.com/a454656b43534543a1232435b546546')
['a454656b43534543a1232435b546546']
>>>

weixin_888988

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
python中“（.*）” 、 “（.*？）”的区别

学习更多相关知识，关注博主知乎账号，用户名Trustintruthhttps://www.zhihu.com/people/suo-yi-xin-90/activities简单说，使用“（.*）”得到的是只有一个元素的列表，里面是很长的字符串“（.*？）”则是得到包含几个元素的列表，每个元素直接对应原来文本中不同的位置匹配的项。例如：十个人肩并肩的并排走着，使用“（.*）”的取到了从第一个人到最后一个人的所有东西在一起，后者则是分别取下了十个人的东西前者成为贪婪模式，获取最长的满足条件...
复制链接

扫一扫