匹配模式:贪婪、勉强、占有
Greediness(贪婪型):最大匹配
X?、X*、X+、X{n,} 是最大匹配,即默认是贪婪匹配。
例如用 <.+> 去匹配 a<tr>aava</tr>abb ,也许你所期待的结果是想匹配 <tr> ,但是实际结果却会匹配到 <tr>aava</tr> 。
在贪婪模式下,会尽量大范围的匹配,直到匹配了整个内容,这时发现匹配不能成功时,开始回退缩小匹配范围(回溯),直到匹配成功。
Reluctant(Laziness)(勉强型,又叫非贪婪型,忽略优先量词):最小匹配
X??、X*?、X+?、X{n,}? 是最小匹配,其实X{n,m}?和X{n}?有些多余。在 Greediness 模式之后添加 ? 就成最小匹配。
在 Reluctant 的模式下,只要匹配成功,就不再继续尝试匹配更大范围的内容。
例如:
字符串:a<tr>aava</tr>abb
正则表达式:<.+?>
匹配结果:<tr> </tr>
可以看到,与 Greediness 不同,Reluctant 模式下匹配了两次内容。
Possessive(占有型,占有优先量词):完全匹配
X?+、X*+、X++、X{n,}+ 是完全匹配,在 Greediness 模式之后添加 + 就成完全匹配。
Possessive 模式与 Greediness 有一定的相似性,那就是都尽量匹配最大范围的内容,直到内容结束,但与 Greediness 不同的是,完全匹配不再回退尝试匹配更小的范围(即不会回溯)。
例如:
字符串:a<tr>aava</tr>abb
正则表达式:<.++>
匹配结果:无匹配内容
字符串:<12323432434>
正则表达式:<\d++>
匹配结果:<12323432434>
环视
概念
环视只进行子表达式的匹配,不占有字符,匹配到的内容不保存到最终的匹配结果,是零宽度的。环视匹配的最终结果就是一个位置。
环视的作用相当于对所在位置加了一个附加条件,只有满足这个条件,环视子表达式才能匹配成功。
环视按照方向划分有顺序和逆序两种,按照是否匹配有肯定和否定两种,组合起来就有四种环视。顺序环视相当于在当前位置右侧附加一个条件,而逆序环视相当于在当前位置左侧附加一个条件。
基础表达式
- (?=Expression) 顺序肯定环视,表示所在位置右侧能够匹配Expression
- (?!Expression) 顺序否定环视,表示所在位置右侧不能匹配Expression
- (?<=Expression) 逆序肯定环视,表示所在位置左侧能够匹配Expression
- (?<!Expression) 逆序否定环视,表示所在位置左侧不能匹配Expression
注意:
JavaScript中只支持顺序环视,不支持逆序环视;
Java中虽然顺序环视和逆序环视都支持,但是逆序环视只支持长度确定的表达式,逆序环视中量词只支持?,不支持其它长度不定的量词。长度确定时,引擎可以向左查找固定长度的位置作为起点开始尝试匹配,而如果长度不确定时,就要从当前位置向左逐个位置开始尝试匹配,不成功则回溯,再向左侧位置进行尝试匹配,然后重复以上过程,直到匹配成功,或是尝试到位置0处以后,报告匹配失败,处理的复杂度是显而易见的。
示例
顺序肯定环视
匹配后缀结尾是“.txt”的不含后缀的文件名
表达式 | .+(?=\.txt) |
测试文本 | txtfile.txt exefile.exe inifile.ini |
匹配结果 | txtfile |
匹配步骤
先来分析下正则表达式:.+(?=.txt)
.+ 是匹配至少一个字符,在贪婪模式下会尽可能多的匹配;(?=.txt) 指所在位置的右边匹配.txt,则匹配。