正则表达式新手入门指南

笃定131

已于 2023-05-17 15:28:15 修改

阅读量119

点赞数

分类专栏：程序员周边文章标签：正则表达式

于 2023-05-17 15:25:12 首次发布

本文链接：https://blog.csdn.net/Proewildfire/article/details/130726724

版权

程序员周边专栏收录该内容

1 篇文章 0 订阅

订阅专栏

正则表达式新手入门指南

文章目录

1. 前言
2. 正则表达式语法速查表
3. 正则表达式 - 运算符优先级
4. 常用的处理选项含义
5. 尚未详细讨论的语法
6. 正则表达式在线测试工具
7. 网上资源及本文参考文献

1. 前言

正则表达式，又称规则表达式，英文名为Regular Expression，在代码中常简写为regex、regexp或RE，是计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串。
正则表达式通常缩写成“regex”，单数有regexp、regex，复数有regexps、regexes、regexen。

2. 正则表达式语法速查表

2.1. 常用元字符

元字符	描述	示例	备注
.	匹配除换行符以外的任意字符	.*	任意数量的不包含换行的字符
\w	匹配字母或数字或下划线或汉字	\b\w{6}\b	匹配刚好6个字符的单词
\s	匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等
\d	匹配一位数字(0，或1，或2，或……)	0\d{2}-\d{8}	\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)
\b	匹配单词的开始或结束(匹配一个字边界，即字与空格间的位置)	\bhi\b	精确地查找hi这个单词
^	匹配字符串的开始（默认匹配一行的开始）	^spam	意味着字符串必须以spam 开始
$	匹配字符串的结束（默认匹配一行的结束）	spam$	意味着字符串必须以spam 结束
“（”和“）”	组合形成分组

2.2. 字符转义“\”

字符转义	描述	示例	备注
\	对通配符转义，使用字符本身所代表的含义	\*	表示*本身
		\.	表示.本身
		\\	表示\本身

2.3. 限定符 —— 指定重复次数

2.3.1. 常用限定符

限定符	描述	示例	备注
*	指定*前边的内容重复零次或任意次	.*	任意数量的不包含换行的字符
+	指定+前边的内容重复一次或更多次	\d+	匹配1个或更多连续的数字
？	指定?前边的内容重复零次或一次
{n}	指定{n}前边的内容重复n次
{n,}	指定{n,}前边的内容重复n次或更多次
{n,m}	指定{n,m}前边的内容重复n到m次

2.3.2. 懒惰限定符

在限定符后添加？，表示尽可能少的重复

懒惰限定符	描述	示例	备注
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复

2.4. 字符类

字符类	描述	备注
[.？！]	匹配标点符号(.或?或!)	匹配[]中的任意一个字符
[0-9]	匹配一位数字，含意与\d一致	匹配一位0到9的数字
[a-z0-9_A-Z]	匹配字母或数字或下划线或汉字,含意与\w一致

备注：当匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u)时,可使用字符类实现

2.5. 分支条件

分支条件	描述	示例	备注
\|	指的是有几种规则，如果满足其中任意一种规则都应该当成匹配	0\d{2}-\d{8}\|0\d{3}-\d{7}	匹配两种以连字号分隔的电话号码：三位区号+8位本地号和4位区号+7位本地号

备注：匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件

2.6. 常用反义代码

反义代码	描述	示例	备注
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符	\S+	匹配不包含空白符的字符串
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符	<a[^>]+>	匹配用尖括号括起来的以a开头的字符串
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

2.7. 常用分组语法

分组	描述	示例	备注
(…)	用小括号来指定子表达式(也叫做分组)	(\d{1,3}.){3}\d{1,3}	一个简单的IP地址匹配表达式

备注：

用小括号来指定子表达式（即为分组）。
后向引用用于重复搜索前面某个分组匹配的文本。

2.7.1. 捕获

捕获	描述	示例	备注
(exp)	匹配exp,并捕获文本到自动命名的组里	\b(\w+)\b\s+\1\b	匹配重复的单词，如go go；kitty kitty
(?'name’exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?< name>exp)	\b(?\w+)\b\s+\k\b。	匹配重复的单词，如go go；kitty kitty
(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号

备注：

使用小括号()指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。
默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。
指定子表达式组名时，使用语法(?‘word’\w+)，或将’'替换成<>也行，即可将组名指定为word，反向引用这个分组捕获内容时，使用\k’word’即可。
示例说明：
\b(\w+)\b\s+\1\b
这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b)，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符(\s+)，最后是分组1中捕获的内容（也就是前面匹配的那个单词）(\1)。
\b(?< word>\w+)\b\s+\k< word>\b；解析原理与上同理

2.7.2. 零宽断言

零宽断言	描述	示例	备注
(?=exp)	匹配exp前面的位置	\b\w+(?=ing\b)	匹配以ing结尾的单词的前面部分(除了ing以外的部分)；如查找I’m singing while you’re dancing.时，它会匹配sing和danc
(?<=exp)	匹配exp后面的位置	(?<=\bre)\w+\b	匹配以re开头的单词的后半部分(除了re以外的部分)；如在查找reading a book时，它匹配ading
(?!exp)	匹配后面跟的不是exp的位置	\d{3}(?!\d)	匹配三位数字，而且这三位数字的后面不能是数字
		\b((?!abc)\w)+\b	匹配不包含连续字符串abc的单词
(?<!exp)	匹配前面不是exp的位置	(?<![a-z])\d{7}	匹配前面不是小写字母的七位数字
		(?<=<(\w+)>).*(?=</\1>)	匹配不包含属性的简单HTML标签内里的内容

备注：

正向零宽断言
- 用于查找在某些内容(但并不包括这些内容)之前或之后的东西,即像\b，^，$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言。
- 断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配
- 零宽断言是一种零宽度的匹配，它匹配到的内容不会保存到匹配结果中去，最终匹配结果只是一个位置而已
- (?=exp)也叫零宽度正预测先行断言：断言自身出现的位置的后面，能匹配表达式exp
- (?<=exp)也叫零宽度正回顾后发断言：断言自身出现的位置的前面，能匹配表达式exp
负向零宽断言
- 确保某个字符没有出现，但并不想去匹配它**
- 它只匹配一个位置，并不消费任何字符**
- (?!exp)也叫零宽度负预测先行断言:断言此位置的后面，不能匹配表达式exp
- (?<!exp)也叫零宽度负回顾后发断言：断言此位置的前面，不能匹配表达式exp

2.7.3. 注释

注释	描述	示例	备注
(?#comment)	在正则表达式中添加注释	2[0-4]\d(?#200-249)\|250-5\|[01]?\d\d?(?#0-199)

备注：

要包含注释的话，最好是启用“忽略模式里的空白符”选项，这样在编写表达式时能任意的添加空格，Tab，换行，而实际使用时这些都将被忽略。
启用这个选项后，在#后面到这一行结束的所有文本都将被当成注释忽略掉。例如，零宽断言表中最后一个示例可改写成了如下形式：
(?<=    # 断言要匹配的文本的前缀
<(\w+)> # 查找尖括号括起来的内容
# (即HTML/XML标签)
)   # 前缀结束
.* # 匹配任意文本
(?= # 断言要匹配的文本的后缀
</\1>   # 查找尖括号括起来的内容
# 查找尖括号括起来的内容
)   # 后缀结束

3. 正则表达式 - 运算符优先级

运算符	描述	优先级
\	转义符	最高
(), (?: ), (?=), []	圆括号和方括号
*, +, ?, {n}, {n,}, {n,m}	限定符
^, $, \任何元字符、任何字符	定位点和序列（即：位置和顺序）
\|	替换，"或"操作	最低

4. 常用的处理选项含义

名称	说明
IgnoreCase(忽略大小写)	匹配时不区分大小写。
Multiline(多行模式)	更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配 (在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式)	更改.的含义，使它与每一个字符匹配（包括换行符\n）。
IgnorePatternWhitespace(忽略空白)	忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获)	仅捕获已被显式命名的组。

5. 尚未详细讨论的语法

代码/语法	说明
\a	报警字符(打印它的效果是电脑嘀一声)
\b	通常是单词分界位置，但如果在字符类里使用代表退格
\t	匹配一个制表符。等价于 \x09 和 \cI，Tab
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\n	匹配一个换行符。等价于 \x0a 和 \cJ
\e	Escape
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\A	字符串开头(类似^，但不受处理多行选项的影响)
\Z	字符串结尾或行尾(不受处理多行选项的影响)
\z	字符串结尾(类似$，但不受处理多行选项的影响)
\G	当前搜索的开头
\0nn	ASCII代码中八进制代码为nn的字符
\xnn	ASCII代码中十六进制代码为nn的字符
\unnnn	Unicode代码中十六进制代码为nnnn的字符
\cN	ASCII控制字符。比如\cC代表Ctrl+C
\p{name}	Unicode中命名为name的字符类，例如\p{IsGreek}
(?>exp)	贪婪子表达式
(?-exp)	平衡组
(?im-nsx:exp)	在子表达式exp中改变处理选项
(?im-nsx)	为表达式后面的部分改变处理选项
(?(exp)yes\|no)	把exp当作零宽正向先行断言，如果在这个位置能匹配，使用yes作为此组的表达式；否则使用no
(?(exp)yes)	同上，只是使用空表达式作为no
(?(name)yes\|no)	如果命名为name的组捕获到了内容，使用yes作为表达式；否则使用no
(?(name)yes)	同上，只是使用空表达式作为no