正则表达式不包含特定字符串

概述

做日志分析工作的经常需要跟成千上万的日志条目打交道,为了在庞大的数据量中找到特定模式的数据,常常需要编写很多复杂的正则表达式。例如枚举出日志文件中不包含某个特定字符串的条目,找出不以某个特定字符串打头的条目,等等。

使用否定式前瞻

正则表达式中有前瞻(Lookahead)和后顾(Lookbehind)的概念,这两个术语非常形象的描述了正则引擎的匹配行为。需要注意一点,正则表达式中的前和后和我们一般理解的前后有点不同。一段文本,我们一般习惯把文本开头的方向称作“前面”,文本末尾方向称为“后面”。但是对于正则表达式引擎来说,因为它是从文本头部向尾部开始解析的(可以通过正则选项控制解析方向),因此对于文本尾部方向,称为“前”,因为这个时候,正则引擎还没走到那块,而对文本头部方向,则称为“后”,因为正则引擎已经走过了那一块地方。如下图所示:

正向前瞻逆向前瞻

所谓的前瞻就是在正则表达式匹配到某个字符的时候,往“尚未解析过的文本”预先看一下,看是不是符合/不符合匹配模式,而后顾,就是在正则引擎已经匹配过的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我们又称为肯定式匹配和否定式匹配

现代高级正则表达式引擎一般都支持都支持前瞻,对于后顾支持并不是很广泛,因此我们这里采用否定式前瞻来实现我们的需求。

实现

测试数据:

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt
2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt
2009-07-08 04:38:44 127.0.0.1 GET /

例如上面这几条简单的日志条目,我们想实现两个目标:

1. 把8号的数据过滤掉

2. 把那些不包含robots.txt字符串的条目给找出来(只要Url中包含robots.txt的都给过滤掉)。

前瞻的语法是:

(?!匹配模式)

我们先来实现第一个目标——匹配不以特定字符串开头的条目

这里我们因为要排除一段连续的字符串,因此匹配模式非常简单,就是2009-07-08。实现如下:

^(?!2009-07-08).*?$

Expresso我们可以看到结果确实过滤掉8号的数据。

接下来,我们来实现第二个目标——排除包含特定字符串的条目

按照我们上面写法,我照葫芦画瓢了一下:

^.*?(?!robots\.txt).*?$

这段正则用大白话描述就是:开头任意字符,然后后面不要跟着robots.txt连续字符串,然后再跟着任意个字符,字符串结尾。

运行测试,结果发现:

image

没有达到我们想要的效果。这是为什么呢?我们给上面的正则表达式加上两个捕获分组调试一下:

^(.*?)(?!robots\.txt)(.*?)$

测试结果:

image

我们看到,第一个分组啥都没有匹配到,而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。实际上,当正则引擎解析到A区域的时候,就已经开始执行B区域的前瞻工作。这个时候发现当A区域为Null的时候匹配成功——.*本来就允许匹配空字符,前瞻条件又满足,A区域后面紧跟着的是“2009”字符串,而并不是robots。因此整个匹配过程成功匹配到所有条目。

image

分析出原因之后我们对上述的正则进行修正,将.*?移入前瞻表达式,如下:

^(?!.*?robots).*$

测试结果:

转载于:https://www.cnblogs.com/asfeixue/p/lookahead.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要匹配以特定字符串开头和结尾的文本,可以使用如下的正则表达式: ``` ^start.*end$ ``` 其中,`^` 表示匹配字符串的开头,`$` 表示匹配字符串的结尾,`.` 表示匹配任意字符(除了换行符),`*` 表示匹配前面的字符零次或多次。 例如,要匹配以 "hello" 开头,以 "world" 结尾的字符串,可以使用如下的正则表达式: ``` ^hello.*world$ ``` 它可以匹配如下的字符串: - "hello, world!" - "hello123world" - "hello world" 但无法匹配如下的字符串: - "hi, hello world" - "hello world, goodbye" - "world, hello" ### 回答2: 以特定字符串开始和结尾的正则表达式可以通过使用元字符来实现。 首先,我们可以使用"^"元字符匹配一个字符串的开头。例如,如果我们想要匹配以"hello"开头的字符串,可以使用正则表达式"^hello"。 接下来,要匹配以特定字符串结尾的正则表达式,我们可以使用"$"元字符。例如,如果我们想要匹配以"world"结尾的字符串,可以使用正则表达式"world$"。 通过将这两个元字符结合在一起,我们可以构建一个以特定字符串开始和结尾的正则表达式。例如,如果我们想要匹配以"hello"开头和"world"结尾的字符串,可以使用正则表达式"^hello.*world$"。在这个正则表达式中,".*"表示可以包含任意字符。 注意,正则表达式中的特殊字符需要进行转义处理。比如,如果我们想要匹配以"."开头和"?"结尾的字符串,需要使用正则表达式"^\..*\?$"。在这个表达式中,"."和"?"前面的反斜杠表示转义。 总之,以特定字符串开始和结尾的正则表达式可以使用"^"和"$"元字符来实现,并根据需要进行字符转义处理。 ### 回答3: 以特定字符串开始和结尾的正则表达式可以使用"^"和"$"符号来实现。"^"用于匹配字符串的开始位置,"$"用于匹配字符串的结束位置。 例如,如果我们想要匹配以"Hello"开头和以"World"结尾的字符串,可以使用正则表达式"^Hello.*World$"。在这个正则表达式中,"^Hello"表示字符串必须以"Hello"开头,"World$"表示字符串必须以"World"结尾,中间的".*"表示可以是任意字符或者空字符。 举个例子,如果我们有以下字符串列表: 1. "Hello World" 2. "Hello, How are you? World!" 3. "Hello123World" 4. "WorldHello" 使用正则表达式"^Hello.*World$"可以匹配到第一个和第三个字符串,因为它们以"Hello"开头,以"World"结尾。而第二个和第四个字符串则无法匹配,因为它们不满足以"Hello"开头和以"World"结尾的要求。 需要注意的是,正则表达式中的特殊字符需要进行转义,比如"."和"$"等。如果我们想匹配文本中的这些特殊字符,可以使用"\\"来转义它们。 总结起来,以特定字符串开始和结尾的正则表达式可以使用"^"和"$"符号来定义,从而能够精确地匹配符合条件的字符串

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值