最近不管是在做爬虫,还是涉及到NLP中,都涉及到了正则表达式,有必要专门记录下在实际使用的过程中使用过的一些技巧和方法。
一开始总感觉正则表达式咋一看很难琢磨,都是奇奇怪怪的符号,而且看到了就会有畏难情绪,后面慢慢悟着倒也习惯了。
先聊聊正则表达式中关于匹配次数中的贪婪与非贪婪问题
1. 贪婪与非贪婪
因为在做正则表达式的时候,默认的是做的贪婪匹配,也就是尽可能多的匹配出满足要求的字段,但是这样也会带来过犹不及的效果。这个时候就需要使用到"?"来进行修饰,在匹配次数的特殊符号后加上,则可以使匹配次数不定的时候,表达式尽可能少的匹配,这也被称作非贪婪模式 。
举例如下 :
通过例子我们可以看到,当不加"?"的时候,是尽可能多的匹配,直接匹配的结果就是"hello world hello wo
",这么长的字符,但是加了"?"的时候就一次只匹配一个,第一次是 "hello" ,然后到了下一个匹配的就是另一个"hello"。所以在选择使用的时候要谨慎选择。
ps: 我们一般采用非贪婪模式来提取。
2. 正向预搜索
正向预搜索的表达式为 "(?=xxxx)" ,"(?!xxxx)"
下面分别解释下对应的意思
"(?=xxxx)" 表示在被匹配的