Python正则表达式：最短匹配

最新推荐文章于 2023-04-07 22:57:25 发布

auspark

最新推荐文章于 2023-04-07 22:57:25 发布

阅读量2k

点赞数 1

分类专栏： python 文章标签： python 正则最短匹配

原文链接：https://www.cnblogs.com/jhao/p/5989241.html

版权

python 专栏收录该内容

62 篇文章 2 订阅

订阅专栏

https://www.cnblogs.com/jhao/p/5989241.html

正文

最短匹配应用于：假如有一段文本，你只想匹配最短的可能，而不是最长。

例子

比如有一段html片段，<a>this is first label</a><a>the second label</a>,如何匹配出每个a标签中的内容，下面来看下最短与最长的区别。

代码

>>> import re
>>> str = '<a>this is first label</a><a>the second label</a>'

>>> print re.findall(r'<a>(.*?)</a>', str)  # 最短匹配
['this is first label', 'the second label']

>>> print re.findall(r'<a>(.*)</a>', str)
['this is first label</a><a>the second label']

解释

例子中，模式r'(.*?)'的意图是匹配被和包含的文本，但是正则表达式中*操作符是贪婪的，因此匹配操作会查找出最长的可能。
但是在*操作符后面加上？操作符，这样使得匹配变成非贪婪模式，从而得到最短匹配。

正则表达式-贪婪与懒惰

https://blog.csdn.net/anchenyanyue/article/details/6725009

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

为什么第一个匹配是aab（第一到第三个字符）而不是ab（第二到第三个字符）？简单地说，因为正则表达式有另一条规则，比懒惰／贪婪规则的优先级更高：最先开始的匹配拥有最高的优先权——The match that begins earliest wins。

表5.懒惰限定符
代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

auspark

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python正则表达式：最短匹配

目录例子代码解释正文最短匹配应用于：假如有一段文本，你只想匹配最短的可能，而不是最长。例子比如有一段html片段，'<a>this is first label</a><a>the second label</a>',如何匹配出每个a标签中的内容，下面来看下最短与最长的区别。代码>>> import re>>> str = '<a>this is first label&
复制链接

扫一扫

专栏目录