正则表达式与绕过案例

朵拉不会敲代码

已于 2022-07-20 23:02:58 修改

阅读量889

点赞数 2

文章标签：正则表达式 php 开发语言

于 2022-07-19 11:37:46 首次发布

本文链接：https://blog.csdn.net/qq_31088019/article/details/125867648

版权

一.常用的元字符

. 匹配除换行符以外的任意字符

\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始（在集合字符里[^a]表示非（不匹配）的意思
$	匹配字符串的结束

详解和示例：

（1）. 匹配任何任意字符例如 . 可以匹配 1，n，*，+，- ,等
（2）\d\w\s 匹配第一个字符为数字，第二个字符为字母或数字、或下划线或汉字，第三字符为空格的字符串例如：11 ，2a , 1_
（3）^\d\d\d$ 匹配三个全部都为数字的字符串例如： 123,456,789
还可以用于验证输入的字符串是否符合qq（身份证号）的验证：
例如：^\d{8}$ 匹配8位数字的qq号，^\d{15}&匹配15位均为数字的身份证号
（4）\bOlive\b 匹配单词Olive 例如： I Love Oliver and Olive .这个时候返回的是Olive 而不是Oliver,因为\b…\b返回的匹配的单词

二、反义字符

反义字符：多用于查找除某个字符以外其他任意字符均可以的情况
常用的反义字符如下：

\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

详解和示例：
（1）\W 匹配除字母、数字、下划线、汉字以为的字符形如 +，-，*
（2）\S 匹配除空格以外的任意字符形如：1，* ，）
（3）[^abcde]匹配除abcde以为的其他字符如 e，f，g，h

三、限定字符

限定字符多用于重复匹配次数
常用的限定字符如下

*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

详解和示例：
（1）\d* 匹配重复0次或多次数字例如:可能为空或任意数字（2,3。。。。）
（2）\d+ 匹配重复1次或多次数字例如:可能为1个或多个数字 1,23,234,2345，…
（3）\d? 匹配重复次个或者一次数字例如：可能为空或者任意的一个数字（1,2，。。。）
（4）\d{8}匹配重复8次数字例如：123456768
（5）\d{4,}匹配重复至少4次数字例如：1234,12345,124244,。。。。。
（6）^\d{8,11}$ 匹配重复8-11次数字例如：12345678,123456789,1234567890,12345678901

四、转义字符

在实际的开发中，可能会遇到要比配元字符的情况，这个时候就需要进行字符转义，如元字符 . * \ 需要转换为. * \
例如：需要匹配qq邮箱 \d{8,}+qq+.+com 在这里的. 就需要加斜杠

‘’(单引号)硬转义，其内部所有的shell 元字符、通配符都会被关掉。
“”(双引号)软转义，其内部只允许出现特定的shell 元字符：$用于参数替换 `(反单引号，esc键下面)用于命令替换
\(反斜杠)又叫转义，去除其后紧跟的元字符或通配符的特殊意义

五、字符分枝

字符分枝多用于满足不同情况的选择，用“|”将不同的条件分割开来，比如有些固定电话区号有三位，有些有四位，这个时候可以采用字符分枝
例如：\d{3}-\d{8}|\d{4}-\d{8} 可以匹配两种不同长度区号的固定电话
下边的IP地址正则表达式也有用到字符分枝

六、字符分组

字符分组多用于将多个字符重复，主要通过使用小括号()来进行分组
形如：（\d\w){3} 重复匹配3次（\d\w)
常用于表示IP地址形如： ((25[0-5]|2[0-4][0-9]|[0-1]\d\d).){3}(25[0-5]|2[0-4][0-9]|[0-1]\d\d)

捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
(?<name>exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp后面的位置
(?!exp)	匹配后面跟的不是exp的位置
(?<!exp)	匹配前面不是exp的位置
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

七、懒惰匹配和贪婪匹配

贪婪匹配：正则表达式中包含重复的限定符时，通常的行为是匹配尽可能多的字符。
懒惰匹配，有时候需要匹配尽可能少的字符。
回溯
当前前面分支/重复匹配成功后，没有多余的文本可被正则后半部分匹配时，会产生回溯
用一个简单的例子来解释一下贪婪匹配和惰性匹配！
贪婪： /\d+\b/
惰性： /d+?\b/
文本： 1234a
贪婪正则匹配 1234a 时的过程是这样的：

\d+ 匹配得到 1234
\b 却匹配失败(\b 是分词边界匹配，用来获取位置，而不是文本，上一节有讲到)
这个时候，\d+会尝试回吐一个字符，即匹配结果为 123 ，可\b还是匹配失败！
那就继续回吐，一直到 1，还是匹配失败，那么这个正则就整体匹配失败了
这个回吐匹配结果的过程就是回溯
惰性正则匹配 1234a 时的过程是这样的：
\d+？首先匹配，结果是1 ，紧接着 \b 匹配失败
那就 \d+? 继续匹配，结果是 12 ，紧接着 \b 还是匹配失败
\d+? 一直匹配到1234，紧接着的 \b 依然匹配失败
结果整个正则匹配不成功
例如： a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。但是我们此时可能需要匹配的是ab这样的话就需要用到懒惰匹配了。懒惰匹配会匹配尽可能少的字符

*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

八.其他语法

\a	报警字符(打印它的效果是电脑嘀一声)
\b	通常是单词分界位置，但如果在字符类里使用代表退格
\t	制表符，Tab
\r	回车
\v	竖向制表符
\f	换页符
\n	换行符
\e	Escape
\0nn	ASCII代码中八进制代码为nn的字符
\xnn	ASCII代码中十六进制代码为nn的字符
\unnnn	Unicode代码中十六进制代码为nnnn的字符
\cN	ASCII控制字符。比如\cC代表Ctrl+C
\A	字符串开头(类似^，但不受处理多行选项的影响)
\Z	字符串结尾或行尾(不受处理多行选项的影响)
\z	字符串结尾(类似$，但不受处理多行选项的影响)
\G	当前搜索的开头

LINUX中的正则表达式

正则表达式是用来匹配字符串的，针对文件内容的文本过滤工具里，大都用到正则表达式，如vi，grep，awk，sed等。
最常使用的特殊字符如下

^指向一行的开头
$指向一行的结尾
.任意单个字符
[]字符范围。如[a-z]

如果想将上述字符用作普通字符，就需要在它们前面加上\字符。例如，如果想使用$字符，你需要将它写为\ $
在方括号中还可以使用一些有用的特殊匹配模式

匹配字符

-  . 匹配任意单个字符，不能匹配空行
-  [] 匹配指定范围内的任意单个字符
-  [^] 取反
-  [:alnum:] 或 [0-9a-zA-Z]
-  [:alpha:] 或 [a-zA-Z]
-  [:upper:] 或 [A-Z]
-  [:lower:] 或 [a-z]
-  [:blank:] 空白字符（空格和制表符）
-  [:space:] 水平和垂直的空白字符（比[:blank:]包含的范围广）
-  [:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
-  [:digit:] 十进制数字 或[0-9]
-  [:xdigit:]十六进制数字
-  [:graph:] 可打印的非空白字符
-  [:print:] 可打印字符
-  [:punct:] 标点符号

在这里插入图片描述

配置次数

格式

***** 匹配前面的字符任意次，包括0次，贪婪模式：尽可能长的匹配
.* 任意前面长度的任意字符，不包括0次
? 匹配其前面的字符0 或 1次
+ 匹配其前面的字符至少1次
{n} 匹配前面的字符n次
{m,n} 匹配前面的字符至少m 次，至多n次
{,n} 匹配前面的字符至多n次
{n,} 匹配前面的字符至少n次

位置锚定：定位出现的位置

（1）格式

-  ^  行首锚定，用于模式的最左侧
-  $  行尾锚定，用于模式的最右侧
-  ^PATTERN$，用于模式匹配整行
-  ^$ 空行
-  ^[[:space:]].*$  空白行
-  < 或 \b  词首锚定，用于单词模式的左侧
-  > 或 \b  词尾锚定；用于单词模式的右侧
-  <PATTERN>

在这里插入图片描述

分组和后向引用

（1）格式
① 分组：() 将一个或多个字符捆绑在一起，当作一个整体进行处理
　　分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为: \1, \2, \3, …
② 后向引用
引用前面的分组括号中的模式所匹配字符，而非模式本身
\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
\2 表示从左侧起第2个左括号以及与之匹配右括号之间的模式所匹配到的字符，以此类推
& 表示前面的分组中所有字符
在这里插入图片描述

通配符

*匹配 0 或多个字符a*b a与b之间可以有任意长度的任意字符, 也可以一个也没有, 如aabcb, axyzb, a012b, ab。
?匹配任意一个字符a?b a与b之间必须也只能有一个字符, 可以是任意字符, 如aab, abb, acb, a0b。
[list]匹配 list 中的任意单一字符a[xyz]b  a与b之间必须也只能有一个字符, 但只能是 x 或 y 或 z, 如: axb, ayb, azb。
[!list]或[^list]匹配 除list 中的任意单一字符a[!0-9]b a与b之间必须也只能有一个字符, 但不能是阿拉伯数字, 如axb, aab, a-b。
[c1-c2]匹配 c1-c2 中的任意单一字符 如：[0-9] [a-z]a[0-9]b 0与9之间必须也只能有一个字符 如a0b, a1b... a9b。
[!c1-c2]或[^c1-c2]匹配不在c1-c2的任意字符a[!0-9]b 如acb adb
{string1,string2,...}匹配 sring1 或 string2 (或更多)其一字符串a{abc,xyz,123}b 列出aabcb,axyzb,a123b

shell Meta字符（元字符）

IFS由 <space> 或 <tab> 或 <enter> 三者之一组成(我们常用 space )
CR由 <enter> 产生
=设定变量
$取变量值或取运算值
> 重定向 stdout
< 重定向 stdin
|管道符号
&重导向 file descriptor ，或将命令置于背景执行
( )将其内的命令置于 nested subshell 执行，或用于运算或命令替换
{ }将其内的命令置于 non-named function 中执行，或用在变量替换的界定范围
;在前一个命令结束时，而忽略其返回值，继续执行下一个命令
&&在前一个命令结束时，若返回值为 true，继续执行下一个命令
||在前一个命令结束时，若返回值为 false，继续执行下一个命令
!运算意义上的非（not）的意思
#注释，常用在脚本中
\转移字符，去除其后紧跟的元字符或通配符的特殊意义

通配符和正则表达式比较

（1）通配符和正则表达式看起来有点像，不能混淆。可以简单的理解为通配符只有*,?,[],{}这4种，而正则表达式复杂多了。
（2）在通配符和正则表达式中有其不一样的地方，在通配符中可以匹配任意的0个或多个字符，而在正则表达式中他是重复之前的一个或者多个字符，不能独立使用的。比如通配符可以用*来匹配任意字符，而正则表达式不行，他只匹配任意长度的前面的字符。

案例

1.在要求数字+字母的格式的时候，利用正则表达式可以写成

(?=.*[0-9])(?=.*[a-z])
但是当我们换一种方式设置的时候，就会报错。输入的含有字母或者数字，但是输入中含有没有设置的内容，也是不可行的。

2.在要求数字+字母+特殊符的格式的时候，利用正则表达式可以写成

(?=.*[0-9])(?=.*[a-z])(?=.*[!@\#$%^&\*\\\(\)])
结果也是只可以输入的组合是数字+小写字母+特殊符号，因为在一些语法里面，部分特殊符号会具有一些特定含义，所以在【】中需要加上\来代表转义字符进行转义。

3.在严格要求的情况下，一般要求输入的都是数字+小写字母+大写字母+特殊符的格式的时候，利用正则表达式可以写成

(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z])(?=.*[!@\#$%^&\*\\\(\)])
但是不论我们输入多少的字符长度，但是他都是可以实现的。

4在上述情况下，我们需要对字符串的长度输入进行一些限制，比如说最少输入8位，最多输入16位。那么我们就可以直接在正则表达式后面加上一个^.{8,16}$也就是对字符串长度尽行了限制。

(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z])(?=.*[!@\#$%^&\*\\\(\)])^.{8,16}$
如果输入字符长度超过16或者不够8都是不可以的，但是在这个区间内是刚刚好。

grep

什么是grep和egrep**

Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来（匹配到的标红）。grep全称是Global Regular Expression Print，表示全局正则表达式版本，它的使用权限是所有用户。
　　grep的工作方式是这样的，它在一个或多个文件中搜索字符串模板。如果模板包括空格，则必须被引用，模板后的所有字符串被看作文件名。搜索的结果被送到标准输出，不影响原文件内容。
　　grep可用于shell脚本，因为grep通过返回一个状态值来说明搜索的状态，如果模板搜索成功，则返回0，如果搜索不成功，则返回1，如果搜索的文件不存在，则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。
　　egrep = grep -E：扩展的正则表达式 （除了**< , > , \b** 使用其他正则都可以去掉\）