正则表达式之——捕获(capture group)和反向引用

最新推荐文章于 2024-06-21 08:25:48 发布

赶路人儿

最新推荐文章于 2024-06-21 08:25:48 发布

阅读量4.8k

点赞数 1

分类专栏： linux 文章标签：正则表达式

本文链接：https://blog.csdn.net/liuxiao723846/article/details/83277488

版权

linux 专栏收录该内容

293 篇文章 17 订阅

订阅专栏

一、分组：

正则表达式中的分组又称为子表达式，就是把一个正则表达式的全部或部分当做一个整体进行处理，分成一个或多个组。其中分组是使用“（）”表示的。进行分组之后“（）”里面的内容就会被当成一个整体来处理。

示例：

(Matz|Eich) //匹配Matz或Eich
(Matz)? //匹配0或1个Matz

分组又可以分为捕获组和非捕获组两种。

1、捕获组（capture group）：

捕获组：就是把正则表达式中子表达式匹配的内容，保存到内存中以数字编号或显式命名的组里，方便后面引用。当然，这种引用既可以是在正则表达式内部，也可以是在正则表达式外部，这种引用方式就是反向引用（下面会讲）

捕获组编号规则：

从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。需要注意的是组0永远代表的是整个正则式。

2、非捕获组：

1）为什么要有非捕获组：

一旦使用了“()”，就会默认为是捕获组，从而将“()”内表达式匹配的内容捕获到组里。但是有些情况下，不得不用“()”，但并不关心“()”中匹配的内容是什么，后面也不会引用捕获到的内容，这带来了一个副作用，记录这些捕获组就会占用内存，降低匹配效率。设计非捕获组的目的就是为了抵消这种副作用。只进行分组，并不将子表达式匹配到的内容捕获到组里。

2）使用：

以 (?) 开头的组是非捕获组，它不捕获文本也不针对组合计进行计数。就是说，如果小括号中以?号开头，那么这个分组就不会捕获文本，当然也不会有组的编号，因此也不存在反向引用。

使用上，主要是先行断言和后行断言。详情见：https://blog.csdn.net/liuxiao723846/article/details/83278067

二、反向引用：

当一个正则表达式被分组后，每个组将会自动的分配一个组号用于代表该组的表达式，其中，组号的编制规则为：从左到右、以分组的左括号“(”为标志，第一个分组的组号为1，第二个分组的组号为2，以此类推。反向引用提供查找重复字符组的方便的方法。它们可被认为是再次匹配同一个字符串的快捷指令。

示例1：

(boy)\1          //相当于(boy)(boy),匹配boyboy
(boy)(girl)\1\2  //匹配boygirlboygirl

示例2：

对比(\w)\1和的区别：
(\w)\1    //该正则匹配的是出现两次的字符,\1将重复匹配(\w）出现的内容！例如匹配aa、bb
(\w)(\w)  //该正则只是简单的匹配两个字符，例如匹配ab，aa等。注意区别！

赶路人儿

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
正则表达式之——捕获(capture group)和反向引用

一、分组：正则表达式中的分组又称为子表达式，就是把一个正则表达式的全部或部分当做一个整体进行处理，分成一个或多个组。其中分组是使用“（）”表示的。进行分组之后“（）”里面的内容就会被当成一个整体来处理。示例：(Matz|Eich) //匹配Matz或Eich(Matz)? //匹配0或1个Matz分组又可以分为捕获组和非捕获组两种。1、捕获组（capture group...
复制链接

扫一扫