python 的正则表达式贪婪模式与懒惰模式

最新推荐文章于 2023-12-21 10:11:45 发布

weixin_30411819

最新推荐文章于 2023-12-21 10:11:45 发布

阅读量188

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/luckygwt/p/6565434.html

版权

正则表达式中用于表示匹配数量的元字符如下：

? 　　重复0次或1次，等同于{0,1}

*　　重复0次或更多次，等同于{0,}

+　　重复1次或更多次，等同于{1,}

{n,} 重复n次及以上

上面的表示匹配次数的元字符分为贪婪型和懒惰型2种类型。其表达式分别如下。

贪婪型懒惰型

*　　　　　*?

+　　　　　+?

{n,} 　　　{n,}?

贪婪型的匹配会去抓取满足匹配的最长的字符串，这个也是正则表达式的默认的模式。当我们不需要最长的匹配的时候就需要使用懒惰模式。

关于贪婪型和懒惰型的举例如下：

元字符'*'的贪婪模式 '*?'

1 >>> s="abcbd"
2 >>> patt=r'a.*b'   #*的贪婪类型
3 >>> re.search(patt,s).group()
4 'abcb' 
5 
6 >>> patt=r'a.*?b'  #*的懒惰类型
7 >>> re.search(patt,s).group()
8 'ab'

1 >>> s='caaaaab'
2 >>> patt=r'a.+b'  #+的贪婪类型
3 >>> s='caaaaabcccb'
4 >>> re.search(patt,s).group()
5 
6 >>> patt=r'a.+?b'   #+的懒惰类型
7 >>> re.search(patt,s).group()
8 'aaaaab'

下面举例匹配html的例子，假如要匹配标签<li >和</li>之间的内容：

1 >>> s=r'my string is:<li>QQemail</li><li>Not read email</a></li>'
2 
3 >>> patt=r'<li>.*</li>'
4 >>> print re.search(patt,s).group()
5 <li>QQemail</li><li>Not read email</a></li> #贪婪类型，匹配多了
6 
7 >>> patt=r'<li>.*?</li>'
8 >>> print re.search(patt,s).group()
9 <li>QQemail</li>  #懒惰类型，匹配刚好

1 >>> print re.findall(patt,s)
2 ['<li>QQemail</li>',  '<li>Not read email</a></li>']

转载于:https://www.cnblogs.com/luckygwt/p/6565434.html

weixin_30411819

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python 的正则表达式 贪婪模式与懒惰模式

python 的正则表达式贪婪模式与懒惰模式