今天遇到要用正则表达式匹配内容,出现了贪婪匹配的用法
比如,字符串如下:
<a value='1'>111</a>hello here<a value='2'>222</a> continue ,go go go
我需要匹配出所有的<a>标签,并且取出其中的value和text,那么简单的正则表达是应该是
<a value="(.+)">(.+)</a>
但匹配出的结果却是 <a value='1'>111</a>hello here<a value='2'>222</a>,但我们需要的结果是两个<a>标签。于是对表达式做了下调整
<a value="(.+?)">(.+?)</a>
这下就ok了,那么区别在于一个有问号,一个没问号的问题,那么这个问号到底是干嘛的呢
以下引用一篇帖子的解释(原帖地址:http://bbs.csdn.net/topics/360202463)
不加 ? 表示贪婪,加 ? 表示勉强,区别如下:
勉强是从左边一个一个地吃直到匹配为止,不加 ?的是一口吃掉整个字符串,然后从最后一个一个地吐出来直到匹配为止
字符串
a=====b=====b===
a.*b 将匹配满足条件最长的字符串 a=====b=====b
工作方式:
首先将:a=====b=====b=== 全部吃掉,从右边一个一个地吐出来
1. a=====b=====b=== 不匹配,吐出一字符
2. a=====b=====b== 不匹配,再吐出一字符
3. a=====b=====b= 不匹配,再吐出一字符
4. a=====b=====b 匹配了,结束。如果再不匹配继续吐,直到没有字符了,匹配失败
a.*? 将匹配满足条件最短的字符串 a=====b
工作方式:
从左边一个一个地吃掉字符
1. a 不能匹配表达式,继续吃
2. a= 不能匹配表达式,继续吃
3. a== 不能匹配表达式,继续吃
4. a=== 不能匹配表达式,继续吃
5. a==== 不能匹配表达式,继续吃
6. a===== 不能匹配表达式,继续吃
7. a=====b 呵呵,终于能匹配表达式了,匹配结束,匹配位置留于字符 b 后面,继续其他的匹配。如果不能匹配则一个一个地吃掉整个字符串直到吃完为止若还没有匹配则匹配失败。