[Python]解决正则表达式的"贪婪"匹配

我们看下面的匹配:

>>> str = 'Wed Feb 27 12:07:46 1985::zwcqrlu@zyifcxsleb.com::478325266-7-10'
>>> pat = '\d+-\d+-\d+'
>>> reg = re.compile(pat)
>>> reg.search(str).group()
'478325266-7-10'
如果把模式串换成下面并且用match()来匹配:

>>> pat2 = '.+\d+-\d+-\d+'
>>> reg2 = re.compile(pat2)
>>> reg2.match(str).group()
'Wed Feb 27 12:07:46 1985::zwcqrlu@zyifcxsleb.com::478325266-7-10'
而我们希望得到的是后面的那个478325266-7-10,所以模式串加进括号:

>>> pat3 = '.+(\d+-\d+-\d+)'
>>> reg3 = re.compile(pat3)
>>> reg3.match(str).group(1)
'6-7-10'
可以看到,匹配到的子组很短,这是因为正则表达式本身默认是贪心匹配的,即如果正则表达式模式中使用到通配字,那它按照从左到右的顺序求值时,会尽量“抓取”满足匹配的最长字符串。一个解决的办法是用"非贪婪"操作符"?"。这个操作符可以用在"*"、“+”或"?"的后面。它的作用是要求正则表达式引擎匹配的字符越少越好。因此,如果把“?”放在“.+”的后面,就可以得到想要的结果:

>>> pat4 = '.+?(\d+-\d+-\d+)'
>>> reg4 = re.compile(pat4)
>>> reg4.match(str).group(1)
'478325266-7-10'



REF:Core Python Programming




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值