文本解析是每天编程中的常见问题.使用成熟的解析器或者解析器生成器有点小题大作,很多问题可以通过QT的正则表达式很快的解决。然而,你知道正在表达式的陷阱吗?下面我们通过实例来说明这些陷阱并给出解决方法。
1、贪婪陷阱:
我们通常要匹配一段文本的开始和结束,例如HTML中的<li>test</li>这样的文本,我们通常会写如下的正则表达式:
QRegExp rx("<li>.*</li>");
但是有时这并不是我们想要的,如果存在下面的文本:
<li>test</li> <div>this is a div</div> <li>test2</li> 上面的正则表达式并不会匹配<li>test</li>,而是整个文本<li>test</li> <div>this is a div</div> <li>test2</li> 。
这就是 .* 号的贪婪特性。解决方法很简单,调用下面方法告诉正则不用太贪:
rx.SetMinimal( True );