正则表达式入门笔记

最新推荐文章于 2022-05-10 20:19:39 发布

AprChell

最新推荐文章于 2022-05-10 20:19:39 发布

阅读量241

点赞数 1

分类专栏：工具文章标签：正则表达式

本文链接：https://blog.csdn.net/ChiZng/article/details/118198083

版权

工具专栏收录该内容

2 篇文章 0 订阅

订阅专栏

极客时间正则表达式入门课程笔记

正则常用的功能：校验数据有效性、查找符合要求的文本、对文本进行切合和替换。

元字符

元字符是正则的基本单元。它是正则表达式中具有特殊意义的专用字符。

元字符
分类		备注
特殊单字符	.任意字符（换行除外）
	\d 任意数字 \D 任意非数字
	\w 任意字母数字下划线 \W任意非字母数字下划线
	\s 任意空白符 \S 任意非空白符
空白符	\r 回车符
	\n 换行符
	\f 换页符
	\t 制表符
	\v 垂直制表符
	\s 任意空白符
量词	* 含义：0到多次
	+ 含义：1到多次
	？含义：0到1次
	{m} 含义：出现m次
	{m,} 含义：出现至少m次
	{m,n} 含义：m到n次
范围	\| 或，如ab\|bc代表ab或bc
	[...] 多选一，括号中任意单个元素
	[a-z] 匹配a到z之间任意单个元素\n (按ASCII表，包含a，z)
	[^...] 取反，不能是括号中的任意单个元素

### 三种模式

贪婪模式、非贪婪模式和独占模式。

贪婪模式：尽可能进行最大长度匹配。正则的量词默认是使用的贪婪模式。

非贪婪模式：匹配长度最小满足要求的。在量词后边加上?

独占模式：类似贪婪模式，会尽可能多的去匹配，不回溯。匹配过程中独占模式不会交还已经匹配上的字符，如果匹配失败就结束。在量词后边加+

举个例子解释一下什么是回溯，当时我也是看了好久才看明白。

regex = "xy{1,3}yz"

text = "xyyz"

匹配过程：在匹配y{1,3}时会尽可能长的去匹配，所以匹配到xy后还会使用y去匹配下一个是否时y，因为现在才匹配到了一个y。继续匹配xyy，现在两个 y。继续用第三个y匹配，发现下一个不是y。匹配两个y。继续匹配正则下一个规则，吐出当前字符z，接着用正则中的y去匹配吐出来的当前字符z，发现不匹配。向前回溯匹配一个y，然后继续匹配下一个规则匹配xy{1,3}yz中的y，然后匹配z。

非贪婪模式匹配

regex = "xy{1,3}?yz"

text = "xyyz"

匹配过程：在匹配y{1,3}?时会尽可能短的去匹配，所以当匹配到xy后使用正则中的y去匹配下一个字符，发现匹配。继续匹配z，发现匹配

独占模式匹配

regex = "xy{1,3}+yz"

text = "xyyz"

匹配过程：匹配到xyy，继续用y去匹配z匹配不上，然后继续正则中xy{1,3}+yz中的y的匹配。发现y和当前字符z不匹配，不回溯。导致匹配失败。

分组和引用

分组和编号

括号在正则中可以用于分组，被括号括起来的部分“子表达式”会被保存为一个自组。

第几个括号就是第几个分组。

例如将2021-06-21 21:24:05提取出日期和时间(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) 日期是第一个分组时间是第二个分组。

不保存子组

在括号里使用?:不保存子组。不保存子组会提高正则性能，但是之后不能再利用括号中的值

括号嵌套

在复杂的括号嵌套中想要知道某个括号是第几个分组时怎么办？其实方法很简单，数左括号是第几个，就是第几个分组。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zYSE80jC-1624546282681)(正则入门.assets/image-20210622185239877.png)]

日期分组编号是1，时间分组编号是5，年是2。

分组引用

知道了分组应用的编号，大部分情况，我们可以使用“反斜杠 + 编号”的方式进行引用。不同编程语言查找和替换的引用方式：

编程语言	查找时引用方式	替换时引用方式
Java	\number 如\1	$number 如$1
JavaScript	$number 如$1	$number 如$1
Go	官方包不支持	官方包不支持
Python	\number 如\1	\number 如\1

分组应引用在查找中使用

如果我们要查找文中重复出现的单词可以使用\w+来表示一个单词，那么使用\w+ \1就是这个正则了。

在这里插入图片描述

四种匹配模式

不区分大小写模式、点号通配模式、多行模式和注释模式。

不区分大小写模式

正则不区分英文字母的大小写，放在正则的前边。

修饰符：(?i)

修饰符在括号内作用范围是这个括号内的正则，不是整个正则。

点号通配模式

又叫单行匹配模式，改变的是点号的匹配行为，让其可以匹配任何字符，包括换行。

修饰符：(?s)

多行匹配模式

修饰符：(?m)

通常情况下，^匹配字符串的开头，$匹配字符串的结尾。

场景：日志以时间开头，打印堆栈占用了多行，可以使用多行匹配模式，在日志中匹配到以时间开头的每一行日志。

注释模式

就是给正则加注释，更容易阅读和维护。

修饰符：(:# xxx)

断言

用于匹配位置，而不是内容本身。常见的断言：单词边界、行的开始或结束、环视。

单词边界

\b 匹配单词边界。

例如，精准匹配单词 \b\w+\b

行的开始/结束

^ 匹配行的开始。多行模式时，可以匹配任意行开头
$ 匹配行的结束。多行模式是，可以匹配任意行结束
\A 仅匹配整个字符串的开始，不支持多行模式
\Z 进匹配整个字符串的结束，不支持多行模式

环视

匹配前后要满足某种规则。

正则	名称	含义	示例
(?<=Y)	肯定逆序环视	左边是Y	(?<=\d)X 匹配左边是数字的X
(?<!Y)	否定逆序环视	左边不是Y	(?<!\d)th 匹配左边不是数字的th
(?=Y)	肯定顺序环视	右边是Y	six(?=\d) 匹配右边是数字的six
(?!Y)	否定顺序环视	右边不是Y	six(?！\d) 匹配右边不是数字的six