正则表达式

邻居家的小南瓜

已于 2024-05-30 09:46:28 修改

阅读量102

点赞数

文章标签：正则表达式

于 2021-10-25 15:41:50 首次发布

本文链接：https://blog.csdn.net/qq_37932504/article/details/120649964

版权

1、基本正则表达式和扩展正则表达式

世界上的正则表达式种类繁多且复杂，面对这样的状况，POSIX 将正则表达式进行了标准化，并把实现方法分为了两大类：

1) 基本正则表达式(BRE)

2) 扩展正则表达式(ERE)

两者的区别，更多的是元字符的区别。在基本正则表达式（BRE）中，只承认“^”、“$”、“.”、“[”、“]”、“*”这些是元字符，所有其他的字符都被识别为普通字符。而在扩展正则表达式（ERE）中，则在BRE的基础上增加了“（”、“）”、“{”、“}”、“？”和“+”、“|”等元字符。

2、定位符

^	1、匹配输入字符串开始的位置。 2、锚定行的开始(多行的情况)
$	1、匹配输入字符串结尾的位置。 2、锚定行的结束(多行的情况)
\b	单词锁定符,匹配单词的开始或结束。如果它位于要匹配的字符串的开始，它在单词的开始处查找匹配项。如果它位于字符串的结尾，它在单词的结尾处查找匹配项。如果它位于要匹配的字符串的开始和结尾，则表示全词匹配。
\B	匹配不是单词开头或结束的位置

3、限定符

*	匹配零个或多个先前字符。代表前面的字符可以不出现，也可以出现一次或者多次。
+	匹配一次或多次。代表前面的字符必须至少出现一次。
？	重复零次或一次。代表前面的字符最多只可以出现一次。
{n}	重复之前字符m次。如：'o{5}'匹配包含5个o的行。
{n,}	重复之前字符至少m次，如：'o{5,}'匹配至少有5个o的行。 *注： {0,}与特殊字符是相等。 {1,} 与字符 + 是相等。**
{n,m}	重复之前字符至少m次，不多于n次，如：'o{5,10}'匹配5--10个o的行。注:在逗号和两个数之间不能有空格。

4、分支条件

\|	分支条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配。

注：使用分枝条件时，要注意各个条件的顺序。匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

5、常用字符

.	匹配一个非换行符的字符，相等于 [^\n\r]。
[]	匹配中括号的任意内容。如[AB]表示字符A或B。
[^]	匹配一个不在指定范围内的字符。如[^A]表示除A以外的字符。
[ - ]	在[]括号内表示字符范围。如[0-9]表示范围0-9。
$num$	暂存括号中所匹配到的内容,通过编号来依次对应，如 \1、\2、\3 等
\<	锚定单词的开始，如:'\<grep'匹配包含以grep开头的单词的行。
\>	锚定单词的结束，如'grep\>'匹配包含以grep结尾的单词的行。
\d	匹配一个数字字符
\D	匹配任意非数字的字符
\s	匹配任意的空白符。包括空格，制表符(Tab)，换行符，中文全角空格等。等价于 [ \f\n\r\t\v]。
\S	匹配任意不是空白符的字符。等价于 [^ \f\n\r\t\v]。
\w	匹配任意字母，数字，下划线，汉字的字符。只考虑英文的话，等价于([A-Za-z0-9_])。
\W	匹配任意不是字母，数字，下划线，汉字的字符。

6、非打印字符

\cx	匹配由x指明的ASCII控制字符。例如，\cC代表Ctrl+C。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\0nn	ASCII代码中八进制代码为nn的字符
\xn	ASCII代码中十六进制代码为n的字符，例如， '\x41' 匹配 "A"。
\unnnn	Unicode代码中十六进制代码为nnnn的字符
\a	响铃字符
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\e	Escape

7、POSIX字符

[:alnum:]	字母与数字字符
[:alpha:]	字母字符
[:digit:]	数字字符
[:graph:]	非空字符（非空格、控制字符）
[:lower:]	小写字符
[:cntrl:]	控制字符
[:print:]	可打印字符
[:punct:]	标点符号
[:space:]	空白字符
[:upper:]	大写字符
[:xdigit:]	十六进制数字

8、分组

分类	代码/语法	说明
捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
	(?<name>exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
	(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	零宽度正预测先行断言。匹配exp前面的位置(断言自身出现的位置的后面能匹配表达式exp)
	(?<=exp)	零宽度正回顾后发断言。匹配exp后面的位置(断言自身出现的位置的前面能匹配表达式exp)
	(?!exp)	零宽度负预测先行断言。匹配后面跟的不是exp的位置(断言此位置的后面不能匹配表达式exp)
	(?<!exp)	零宽度正回顾后发断言。匹配前面不是exp的位置(断言此位置的前面不能匹配表达式exp)
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

注：零宽断言常用于判断一个字符串中不包含某个子串（由字符序列构成）

9、特殊字符

若要匹配特殊字符，必须首先使字符"转义"，即，将反斜杠字符\ 放在其前。

$	要匹配 $ 字符本身，使用 \$。
(	要匹配 ( 字符本身，请使用 \(。
)	要匹配 ) 字符本身，请使用 \)。
*	*要匹配字符本身，请使用 \。*
+	要匹配 + 字符本身，请使用 \+。
.	要匹配 .字符本身，请使用 \. 。
[	要匹配 [字符本身，请使用 \[。
]	要匹配 ]字符本身，请使用 \]。
?	要匹配 ? 字符本身，请使用 \?。
\	要匹配\字符本身，请使用 \\。
^	要匹配 ^ 字符本身，请使用 \^。
{	要匹配 {字符本身，请使用 \{。
\|	要匹配 \|字符本身，请使用 \\|。

10、运算符优先级

运算符	描述
\	转义符
(), []	圆括号和方括号
*, +, ?, {n}, {n,}, {n,m}	限定符
^, $, \任何元字符、任何字符	定位点和序列（即：位置和顺序）
\|	优先级最低。 "m\|food"匹配"m"或"food"。若要匹配"mood"或"food"，应使用"(m\|f)ood"。

11、贪婪匹配与懒惰匹配

贪婪匹配尽可能多的字符(默认)；懒惰匹配匹配尽可能少的字符。

* 和 + 限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。

代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

12、修饰符(标记)

标记也称为修饰符，正则表达式的标记用于指定额外的匹配策略。标记不写在正则表达式里，标记位于表达式之外，格式如下：

/pattern/flags

修饰符	描述
i	将匹配设置为不区分大小写。
g	全局匹配，查找所有的匹配项。
m	多行匹配，使边界字符 ^ 和 $ 匹配每一行的开头和结尾，多行而不是整个字符串的开头和结尾。
s	特殊字符圆点 . 中包含换行符 \n。默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符，加上 s 修饰符之后, . 中包含换行符 \n。

邻居家的小南瓜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式

1、基本正则表达式和扩展正则表达式世界上的正则表达式种类繁多且复杂，面对这样的状况，POSIX 将正则表达式进行了标准化，并把实现方法分为了两大类：基本正则表达式（BRE）扩展正则表达式（ERE）两者的区别，更多的是元字符的区别。在基本正则表达式（BRE）中，只承认“^”、“$”、“.”、“[”、“]”、“*”这些是元字符，所有其他的字符都被识别为普通字符。而在扩展正则表达式（ERE）中，则在BRE的基础上增加了“（”、“）”、“{”、“}”、“？”和“+”、“|”等元字符。最后要特..
复制链接

扫一扫