提示:本文主要是讲解零宽断言,所以阅读本文需要有一定的正则表达式基础。
概念
我们知道元字符“\b”、“^”、“$”匹配的是一个位置,而且这个位置需要满足一定的条件(比如“\b”表示单词的边界),我们把这个条件称为断言或零宽度断言。这里有很重要的两个信息:一是断言实际上是某种条件;二是它不占字符宽度,只是一个位置,并不匹配任何字符。
零宽断言一共分为正向和反向两类,每类又分为预测先行和回顾后发两种:
§零宽度正预测先行断言,简称正向先行断言,语法是(?=exp),它断言此位置的后面能匹配表达式exp。
§零宽度正回顾后发断言,简称正向后发断言,语法是(?<=exp),它断言此位置的前面能匹配表达式exp。
§零宽度负预测先行断言,简称反向先行断言,语法是(?!exp),它断言此位置的后面不能匹配表达式exp。
§零宽度负回顾后发断言,简称反向后发断言,语法是(?
好了,说到这里你一定感觉云里雾里,讲道理我刚看到这官方定义也是一脸懵逼,下面就结合例子来帮助理解一下什么是断言。做过python爬虫的朋友一定做过提取html标签内容的工作吧,比如有
hello world
,我们要把div标签里面的‘hello world’提取出来,用断言就是如下这样:
正则表达式:(?<=
).*(?=
)
匹配字符串:
hello world
匹配结果