假如有这样一个字符串:s="ea567bka12345678bdca987654321bdca147bn"
目标:想要获取a和b中间的连续数字,并且a前面不能是k,b后面必须是d的中间数字串。
设定正则表达式需要用到正向断言和反向断言。
设定规则如下 :r'(?<=[^k]a)\d+(?=bd)'
字符串符合这样条件的只有一个,那就是第20到时第29个连续数字字符'987654321',这样就将符合条件的a和b中间的连续数字提取了出来。
可能大家会问,我不用正向断言也可以呀,比如规则:r'[^k]a\d+bd',但它取出的是字符串'ca987654321bd',还需要通过[2:-2]切割一下,这里就是演示零宽断言应用。
可能还会问,上面正向断言和反向断言规则是不是可以这样写:
1、r'(?<=[^k])a\d+(?=b)d',这个规则没有匹配的字符串,因为最后一个d造成无法匹配;
2、r'(?<=[^k])a\d+(?=bd)',这个规则匹配的是'a987654321'
3、r'(?<!ka)\d+(?=bd)',这个规则造成匹配的字符串,不唯一,因为!ka,除会匹配 第20-第29个连续数字字符串'987654321'外,还会匹配第9-16个连续数字字符'2345678',所以这样不符合要求
4、r'(?<!k)a\d+(?=bd)',这个规则匹配的是'a987654321';
后面3、4用到了反向否定断言。
以上通过非捕获匹配返回的是迭代器,需要通过for循环提取,匹配位置和匹配字串。