python 正则表达式 断言 不定长表达式_MyEssay 之 Python正则表达式 —— 四种断言扩展的理解...

我们经常用正则表达式来检测一个字符串中包含某个子串,要表示一个字符串中不包含单个的某字符或某些字符也很容易,用[^...]形式就可以了。但是要表示一个字符串中不包含某个子串(由字符序列构成)的时候,用[^...]这种形式就不行了,此时就需要使用到四种正则表达式的扩展匹配了,即所谓的“正向前行匹配”  (?=...)、“负向前行匹配” (?!...)、"正向后行匹配" (?<=...)  、“负向后行匹配”(?文中的描述,从两个方面入手:

所谓的前行(lookahead)和后行(lookbehind),其实就是向前看和向后看的意思。正则表达式引擎在执行字符串和表达式匹配时,会从头到尾(从前到后)连续扫描字符串中的字符,设想有一个扫描指针指向字符边界处并随匹配过程移动。前行断言,是当扫描指针位于某个位置时,引擎会尝试匹配指针还未扫过的字符,先于指针到达该字符,故称为前行。后行断言,引擎会尝试匹配指针已扫过的字符,后于指针到达该字符,故称为后行。

记忆方式:后行断言(?<=pattern)、(?

所谓的正向(positive)和负向(negative):正向就表示匹配括号中的表达式,负向表示不匹配。

记忆方式:不等于(!=)、逻辑非(!)都是用!号来表示,所以有!号的形式表示不匹配、负向;将!号换成=号,就表示匹配、正向。

我们特别需要注意的一点是,对于后行方式的两种断言(?<=...)和(?

line0 = ‘?#?def???func(funcName, funcParam, funcTime=360) ‘

line1 = ‘?def???func(funcName, funcParam, funcTime=360) ‘

line2 = "????obj1(param).func(‘func1‘, ‘param1‘, funcTime=150) # test"

line3 = "??obj2().funcTest(1)  # obj1(param).func(‘func1‘, ‘param1‘)"

我们希望字符串中包含对函数 func()的调用,即在被测试line中出现 "func("字符串,但是在被测line中却又不包含针对函数func的定义,即不能出现 “def func(” 字符串,并且def 和 func 之间可能包含多个空格。按照最直接的思路,为要匹配 "func(" 字符串,并且是在 "func(" 前面不出现 “def\s+”模式的字符串,所以首先考虑使用向后看的方法,即负向后行匹配方式来应用于line1,即 re.findall(r"(?

>>> re.findall(r"(?

[‘???func(‘]

"func"前为三个空格;这是为什么呢?原因是re引擎会去尝试找到一个 "\s*func\(" 模式的字符串,并且在这个字符串前面不会出现 "def?" 字符串(def后有一个空格),包含三个前置空格的 "???func(" 正好就能满足条件,首先它能够匹配 "\s*func\(" 的模式,并且这个字符串前面的是不含空格的 "def" 字符串,而不是在负向后行匹配断言(?

那么尝试将负向后行匹配断言中def后面的空格去掉,即修改为 re.findall("(?

>>> re.findall(r"(?

[‘??func(‘]

"func"前为两个空格——仔细分析会发现这是因为原因是re引擎会去尝试找到一个“\s*func\(”模式的字符串,并且在这个字符串前面不会出现“def”字符串(def后没有空格),包含2个前置空格的 "??func(" 就正好满足条件,因为包含2个空格的 "??func(" 字符串能够匹配 "\s*func\(" 的模式,并且这个字符串前面的是后接了一个空格的 "def?" 字符串,而不是在负向后行匹配断言pattern "(?

再尝试在负向后行匹配断言中在def后面使用\s+,即修改为  re.findall("(?

——所以,对于在 def 和 func之间包含了三个空格的line1,要想用负向后行断言来实现匹配,必须使用def后包含三个空格而func前无空格的 re.findall("(?

于是我们只能考虑采取负向前行断言来实现精确匹配,即 re.findall("^(?!.*def\s+func\().*func\(", line1),执行得到的结果为空列表[],同时我们使用正向前行断言来验证我们的匹配字符串使用正确,即执行 re.findall("^(?=.*def\s+func\().*func\(", line1),得到的结果为 [‘def   func(‘]

>>> re.findall("^(?!.*def\s+func\().*func\(", line1)

[]

>>> re.findall("^(?=.*def\s+func\().*func\(", line1)

[‘?def???func(‘]

—— 这说明我们的负向前行断言正好精确匹配到了 def 和 func 之间存在不定长度空格数的情况。

此处再来解析一下这里的负向前行断言的含义:"^(?!.*def\s+func\().*func\("  表示从line的起始位置开始向后搜索,不允许出现 ".*def\s+func\(" 这种模式的字符串,但又尝试在此前提下寻找能够匹配  ".*func\(" 模式的字符串,这也就正是我们所希望的过滤条件。此处的 (?!.*def\s+func\() 是不消耗任何字符串长度的

这里需要特别注意的是另外两种与 re.findall("^(?!.*def\s+func\().*func\(", line1) 很接近的匹配模式:

1、如果使用的是  re.findall("^(?!def\s+func\().*func\(", line1),执行的结果将不会是预期的空列表,而是 [‘ def???func(‘],这是因为这种写法,RE引擎将会尝试搜索是否存在起始位置开始不是 "def\s+func\(" 而是 ".*func\(" 的字符串,但是line1中的"def"前面正好有一个空格,所以RE引擎发现从开始位置处搜索到的是带一个前置空格的 "?def\s+func\(" 模式的字符串,而不是负向前表达式中没有空格的 "def\s+func\(" 模式字符串,所以会匹配成功。

2、如果使用的是 re.findall("(?!.*def\s+func\().*func\(", line1),执行的结果也不会是预期的空列表,而是 [ ‘ef???func(‘ ],这是因为如果pattern中没有了^字符,就不是要求line1从开始就必须满足匹配条件,而是line1中任意位置能够满足匹配条件都可以,所以line1中的 "ef???func(" 这个字符串就能满足匹配条件

—— 综上所述,建议尝试正则匹配“在xxx之前不出现yyy,且 xxx 和 yyy 之间可能存在其他不定长字符串”的场景时,优先考虑使用负向前行断言; 对于能够确定xxx和yyy之间是定长的情况下,可以使用负向后行断言

再例如考虑在line3中匹配 "func(" 字符串的时候,要求在 "func(" 前不能出现#符号,即要求func函数的调用语句没有被注释掉,因为 # 和 func( 之间的字符长度完全是随机未知的,故应该使用负向想前行断言方式的 re.findall("^(?!.*#.*func\().*func\(", line3),而不是 re.findall("(?

原文:http://www.cnblogs.com/xaviercd/p/5818731.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值