这段时间因项目需要用正则表达式,初始打算花两三个小时学习一下,结果经过3天疯狂度娘,敲代码验证,终于拿下。期间发现网上资料对于python3正则表达式前向、后向断言语焉不详,故整理成文分享。
>>前向断言
前向断言可以分为前向肯定断言和前向否定断言两种形式,属于零宽断言。
>>前向肯定断言:(?=...)
符号...表示包含的子组正则表达式。前向肯定断言一般使用格式如下:
表达式一(?<=子组表达式)表达式二
表达式一可选,对前向肯定断言没有影响。首先匹配后面的表达式二捕获内容二,然后用子组表达式从开始位置匹配内容二(相当于子组表达式前面固定添加^),如果匹配成功,则断言成功,否则断言失败。断言成功整条表达式返回成功。断言失败整条表达式返回失败。
示例 | 执行结果 | 注释 |
search(r'(?=abc)abc',"fishc@abcch") | span=(6, 9), match='abc' |
|
search(r'@(?=abc)abcch',"fishc@abcch") | span=(5, 11), match='@abcch' |
|
search(r'(?=abc)@abc',"fishc@abcch") | None |
|
search(r'fishc@abc(?=abc)ch',"fishc@abcch") | None |
|
search(r'(?=.abc)@abc',"fishc@abcch") | span=(5, 9), match='@abc' |
|
search(r'fishc@(?=abc)',"fishc@abcch") | span=(0, 6), match='fishc@' | 没有表达式二断言结果依赖于实现,应避免 |
search(r'fish(?=abc)',"fishc@abcch") | None | |
search(r'(?=abc)',"fishc@abcch") | span=(6, 6), match='' |
>>前向否定断言:(?!...)
符号...表示包含的子组正则表达式。前向否定断言一般使用格式如下:
表达式一(?<=子组表达式)表达式二
表达式一可选,对前向否定断言没有影响。首先匹配后面的表达式二捕获内容二,然后用子组表达式从开始位置匹配内容二(相当于子组表达式前面固定添加^),如果匹配成功,则断言失败,否则断言成功。断言成功整条表达式返回成功。断言失败整条表达式返回失败。
示例 | 执行结果 | 注释 |
search(r'(?!abc)@abc',"fishc@abcch") | span=(5, 9), match='@abc' |
|
search(r'fishc@abc(?=abc)ch',"fishc@abcch") | span=(0, 11), match='fishc@abcch' |
|
search(r'(?!abc)abc',"fishc@abcch") | None |
|
search(r'@(?!abc)abcch',"fishc@abcch") | None |
|
search(r'fishc@(?!abc)',"fishc@abcch") | None | 没有表达式二断言结果依赖于实现,应避免 |
match(r'fishc@(?!abc)',"fishc@abcch") | None | |
search(r'(?!abc)',"fishc@abcch") | span=(0, 0), match='' |
>>后向断言
后向断言可以分为后向肯定断言和后向否定断言两种形式,属于零宽断言。
>>后向肯定断言:(?<=...)
符号...表示包含的子组正则表达式。后向肯定断言一般使用格式如下:
表达式一(?<=子组表达式)表达式二
首先匹配表达式一捕获内容一,然后用子组表达式从结束位置匹配内容一(相当于子组表达式后面固定添加$),如果匹配成功,则断言成功,否则断言失败。断言成功如果有表达式二则执行表达式二,如果没有整条表达式返回成功。如果断言失败,则整条表达式返回失败。
示例 | 执行结果 | 注释 |
search(r'fishc@abc(?<=abc)',"fishc@abcch") | span=(0, 9), match='fishc@abc' |
|
search(r'fishc@abcch(?<=abc)',"fishc@abcch" | None | 表达式一捕获的内容’ fishc@abcch’包含的’abc’没有在结束位置 |
search(r'fishc@(?<=abc)abc',"fishc@abcch") | None | 表达式一捕获的内容’ fishc@’没有包含的’abc’ |
search(r'fishc@abc(?<=abc)ch',"fishc@abcch" | span=(0, 11), match='fishc@abcch' |
|
search(r'(?<=abc)abc',"fishc@abcch") | None | 没有表达式一断言结果依赖于实现,应避免 |
search(r'(?<=abc)ch',"fishc@abcch") | span=(9, 11), match='ch' | |
search(r'(?<=abc)',"fishc@abcch") | span=(9, 9), match='' |
>>后向否定断言:(?<!...)
符号...表示包含的子组正则表达式。后向否定断言一般使用格式如下:
表达式一(?<=子组表达式)表达式二
首先匹配表达式一捕获内容一,然后用子组表达式从结束位置匹配内容一(相当于子组表达式后面固定添加$),如果匹配成功,则断言失败,否则断言成功。断言成功如果有表达式二则执行表达式二,如果没有整条表达式返回成功。如果断言失败,则整条表达式返回失败。
示例 | 执行结果 | 注释 |
src=re.search(r'fishc@abcch(?<!abc)',"fishc@abcch") | span=(0, 11), match='fishc@abcch' |
|
search(r'fishc@(?<!abc)abc',"fishc@abcch") | span=(0, 9), match='fishc@abc' |
|
search(r'fishc@abc(?<!abc)',"fishc@abcch") | None |
|
search(r'fishc@abc(?<!abc)ch',"fishc@abcch") | None |
|
search(r'(?<!abc)abcch',"fishc@abcch") | span=(6, 11), match='abcch' | 没有表达式一断言结果依赖于实现,应避免 |
search(r'(?<!abc)shc',"fishc@aabcch") | span=(2, 5), match='shc' | |
search(r'(?<!abc)',"fishc@abcch") | span=(0, 0), match='' |