正则表达式真的6

最新推荐文章于 2024-09-29 23:52:52 发布

他喜欢浪

最新推荐文章于 2024-09-29 23:52:52 发布

阅读量99

点赞数

文章标签：正则表达式

本文链接：https://blog.csdn.net/a17645084907/article/details/120135053

版权

正则表达式真的很6，当看到一串正则表达式代码时，就像看一篇外星文章一样，在当初没有总结是也常常是这样，所有挑出一个时间总结下来，防止以后忘记。

元字符：

元字符	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串结束

简单的匹配，比如匹配10位数字：^\d\d\d\d\d\d\d\d\d\d$

匹配10位数字1开头：^1\d\d\d\d\d\d\d\d\d$

匹配有abc开头的字符串：\babc或者^abc

重复限定符：

语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

匹配8位数字：

^\d{8}$

匹配1开头11位数字的手机号码：

^1\d{10}$

分组：

小括号 () 来做分组，括号中的内容作为一个整体。

转义：

要转义的字符前面加个斜杠，也就是\。要匹配以 (ab) 开头：^($ab$)*

条件或：

正则用符号 | 来表示或，也叫做分支条件，当满足正则里的分支条件的任何一种条件时，都会当成是匹配成功。

比如匹配12或者13或者14开头的电话号：

^(12|13|134)\d{8}$

区间：

元字符中括号 [] 来表示区间条件。

限定0-9可以写成[0-9]

限定A-Z可以写成[A-Z]

捕获和非捕获

捕获组：匹配子表达式的内容，把匹配结果保存到内存中中数字编号或显示命名的组里，以深度优先进行编号，之后可以通过序号或名称来使用这些匹配结果。

数字编号捕获组：

语法：(exp)

解释：从表达式左侧开始，每出现一个左括号和它对应的右括号之间的内容为一个分组，在分组中，第 0 组为整个表达式，第一组开始为分组。

比如固定电话的：010-88888888

他的正则表达式为：(0\d{2})-(\d{8})

非捕获组

语法：(?:exp)

解释：和捕获组刚好相反，它用来标识那些不需要捕获的分组，说的通俗一点，就是你可以根据需要去保存你的分组。

比如固定电话的：010-88888888 ： (?:\0\d{2})-(\d{8})

反向引用

捕获会返回一个捕获组，这个分组是保存在内存中，不仅可以在正则表达式外部通过程序进行引用，也可以在正则表达式内部进行引用，这种引用方式就是反向引用。

贪婪和非贪婪

贪婪匹配：当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符，这匹配方式叫做贪婪匹配。

特性：一次性读入整个字符串进行匹配，每当不匹配就舍弃最右边一个字符，继续匹配，依次匹配和舍弃（这种匹配 - 舍弃的方式也叫做回溯），直到匹配成功或者把整个字符串舍弃完为止，因此它是一种最大化的数据返回，能多不会少。

非贪婪

懒惰匹配：当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能少的字符，这匹配方式叫做懒惰匹配。

特性：从左到右，从字符串的最左边开始匹配，每次试图不读入字符匹配，匹配成功，则完成匹配，否则读入一个字符再匹配，依此循环（读入字符、匹配）直到匹配成功或者把字符串的字符匹配完为止。

懒惰量词是在贪婪量词后面加个“？”

代码	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

反义

元字符的都是要匹配什么什么，当然如果你想反着来，不想匹配某些字符，正则也提供了一些常用的反义元字符：

元字符	解释
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符