shell 反向引用/后向引用

最新推荐文章于 2024-05-25 10:42:01 发布

_SunnyRain

最新推荐文章于 2024-05-25 10:42:01 发布

阅读量234

点赞数

文章标签：正则表达式 unix

本文链接：https://blog.csdn.net/m0_46249949/article/details/125140816

版权

反向引用

反向引用提供查找文本中两个相同的相邻单词的匹配项的能力
正则表达式的最重要功能之一是存储匹配的模式的一部分以供以后重新使用的能力。您可能想起，若在正则表达式模式或模式的一部分两侧加上括号，就会导致表达式的一部分被存储到临时缓冲区中。可以通过使用非捕获元字符 ?:、?= 或 ?! 来重写捕获。

使用反向引用

每个捕获的子匹配项按照它们在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从 1 开始，最多可存储 99 个捕获的子表达式。可以使用 \n来访问每个缓冲区，其中n 是标识特定缓冲区的一位或两位十进制数字。
反向引用的最简单的、最有用的应用之一，是提供查找文本中两个相同的相邻单词的匹配项的能力。以下面的句子为例：

Is is the cost of of gasoline going up up? 上面的句子很显然有多个重复的单词。如果能设计一种方法定位该句子，而不必查找每个单词的重复出现，那该有多好。下面的正则表达式使用单个子表达式来实现这一点：
/\b([a-z]+) \1\b/gi 捕获的表达式，正如 [a-z]+ 指定的，包括一个或多个字母。正则表达式的第二部分是对以前捕获的子匹配项的引用，即，单词的第二个匹配项正好由括号表达式匹配。\1 指定第一个子匹配项。字边界元字符确保只检测整个单词。否则，诸如“is issued”或“this is”之类的词组将不能正确地被此表达式识别。
正则表达式后面的全局标记 (g) 指示，将该表达式应用到输入字符串中能够查找到的尽可能多的匹配。表达式的结尾处的不区分大小写 (i) 标记指定不区分大小写。多行标记指定换行符的两边可能出现潜在的匹配。
使用上面的正则表达式，下面的代码可以使用子匹配项信息，将文本字符串中的两个连续相同的单词的匹配项替换为同一单词的单个匹配项：
var ss = "Is is the cost of of gasoline going up up?.\n"; var re = /\b([a-z]+) \1\b/gim; //Create regular expression pattern. var rv = ss.replace(re,"$1"); //Replace two occurrences with one. 在 replace方法内使用 $1引用第一个保存的子匹配项。如果您有多个子匹配项，您将通过使用 $2、$3等依次引用它们。
反向引用还可以将通用资源指示符 (URI) 分解为其组件。假定您想将下面的 URI 分解为协议（ftp、http 等等）、域地址和页/路径：