PECR-CSDN博客

本文链接：https://blog.csdn.net/iteye_12449/article/details/82443779

经常使用的分隔符是正斜线(/), hash符号(#) 以及取反符号(~). 下面的例子都是使用合法分隔符的模式.

/foo bar/ #^[^0-9]$# +php+ %[a-zA-Z0-9_-]%

\a 响铃字符(十六进制07) \cx "control-x", x是任意字符 \e 转义 (十六进制 1B) \f 换页 (十六进制 0C) \n 换行 (十六进制 0A) \p{xx} 一个符合xx属性的字符, 详细查看unicode properties 属性 \P{xx} 一个不符合xx属性的字符, 详细查看unicode properties 属性 \r 回车 (十六进制 0D) \t 水平制表符 (十六进制 09) \xhh hh十六进制编码的字符, 详细查看unicode properties 属性 \ddd ddd八进制编码的字符, 或者后向引用

\cx的确切效果如下: 如果 x是一个小写字母, 它被转换为大写. 接着, 将字符的第6位(十六进制 40, 右数第一个位为第0位)取反. 比如 \cz成为十六进制的1A, \c{成为十六进制3B, \c;成为十六进制7B.

在” \x”后面,读取两个十六进制数(字母可以是大写或小写). 在 UTF-8模式, “ \x{…}”允许使用, 花括号内的内容是十六进制有效数字. 它将给出的十六进制数字解释为UTF-8字符代码. 原来的十六进制转义序列, \xhh, 匹配一个双字节的UTF-8字符, 如果它的值大于127

在” \0”之后, 读取两个八进制数. 所有情况下, 如果数少于2个, 则直接使用. 序列” \0\x\07”指定了两个二进制0紧跟着一个BEL字符. 请确保初始的0之后的两个数字是合法的八进制数.

处理一个反斜线紧跟着的不是0的数字的情况比较复杂. 在字符类外部, PCRE读取它并以十进制读取紧随其后的数字. 如果数值小于10，或者之前捕获到了该数字能够代表的左括号(子组), 整个数字序列被认为是 后向引用.后向引用如何工作在后面描述, 接下来就会讨论括号子组.

在一个字符类里面, 或者十进制数大于9并且没有那么多的子组被捕获, PCRE重新读取反斜线后的第三个8进制数字, 并且从最低的8位生成单字节值. 任何的后续数字都代表它们自身. 例如:

\040

空格的另外一种用法

\40

当提供了少于40个子组时也认为是空格.

始终是后向引用

\11

可能是后向引用, 也可能是制表符

\011

总是一个制表符

\0113

一个制表符紧跟着一个3(因为每次最多只读取3个8进制位

\113

八进制113代表的字符

\377

8进制377是10进制255, 因此代表一个全1的字符

\81

一个后向引用或者一个二进制0紧跟着两个数字8和1(因为8不是8进制有效数字)

注意, 八进制值的100或者更大的值必须没有前置的0引导, 因为每次最多读取3个8进制位.

所有序列定义的单字节值都可以在字符类内部或外部使用. 另外, 在字符类中, 序列” \b”解释为退格字符. 字符类外它又有不同的意义(下面有描述)

反斜线的第三种用法是用来描述特定的字符类:

任意十进制数字

任意非十进制数字

任意水平空白字符(since PHP 5.2.4)

任意非水平空白字符(since PHP 5.2.4)

任意空白字符

任意非空白字符

任意垂直空白字符(since PHP 5.2.4)

任意非垂直空白字符(since PHP 5.2.4)

任意单词字符（相当于[a-zA-Z0-9_]）

任意非单词字符

上面每一对转义序列都代表了完整字符集中两个不相交的部分, 任意字符一定会匹配其中一个, 同时一定不会匹配另外一个.

单词字符指的是任意字母, 数字, 下划线. 也就是说任意可以组成perl 单词的字符. 字母和数字的定义通过PCRE字符表控制, 可以通过指定地域设置使其匹配改变. 比如, 在法国(fr)地域设置中, 一些超过128的字符代码被用于重音字母, 它们可以实用 \w匹配.

这些字符类序列在字符类内部或外部都可以出现. 他们每次匹配所代表的字符类型中的一个字符. 如果当前匹配点位于目标字符串末尾, 它们中的所有字符都匹配失败, 因为没有字符让它们匹配了.

反斜线的第四种用法是一些简单的断言. 一个断言指定一个必须在特定位置匹配的条件, 它们不会从目标字符串中消耗任何字符. 接下来我们会讨论使用子组的更加复杂的断言. 反斜线断言包括:

单词边界

非单词边界

目标的开始位置(独立于多行模式)

目标的结束位置或结束处的换行符(独立于多行模式)

目标的结束位置(独立于多行模式)

在目标中首次匹配位置

2：元字符

一般用于转义字符

断言目标的开始位置(或在多行模式下是行首)

断言目标的结束位置(或在多行模式下是行尾)

匹配除换行符外的任何字符(默认)

[

开始字符类定义

]

结束字符类定义

开始一个可选分支

(

子组的开始标记

)

子组的结束标记

作为量词, 表示0次或1次匹配. 位于量词后面用于改变量词的贪婪特性. (查阅量词)

量词, 0次或多次匹配

量词, 1次或多次匹配

{

自定义量词开始标记

}

自定义量词结束标记

模式中方括号内的部分称为"字符类". 在一个字符类中仅有以下可用元字符:

转义字符

仅在作为第一个字符(方括号内)时, 表明字符类取反

标记字符范围

]

字符类结束符

i (PCRE_CASELESS)

如果设置了这个修饰符, 模式中的字母会进行大小写不敏感匹配.

m (PCRE_MULTILINE)

默认情况下, PCRE认为目标字符串是由单行字符组成的(然而实际上它可能会包含多行), "行首"元字符(^)仅匹配字符串的开始位置, 而"行末"元字符($)仅匹配字符串末尾, 或者最后的换行符(除非设置了D修饰符). 这个行为和perl相同. 当这个修饰符设置之后, "行首"和"行末"就会匹配目标字符串中任意换行符之前或之后, 另外, 还分别匹配目标字符串的最开始和最末尾位置. 这等同于perl的/m修饰符. 如果目标字符串中没有"\n"字符, 或者模式中没有出现^或$, 设置这个修饰符不产生任何影响.

s (PCRE_DOTALL)

如果设置了这个修饰符, 模式中的点号元字符匹配所有字符, 包含换行符. 如果没有这个修饰符, 点号不匹配换行符. 这个修饰符等同于perl中的/s修饰符. 一个取反字符类比如 [^a]总是匹配换行符, 而不依赖于这个修饰符的设置.

x (PCRE_EXTENDED)

如果设置了这个修饰符, 模式中的没有经过转义的或不在字符类中的空白数据字符总会被忽略, 并且位于一个未转义的字符类外部的#字符和下一个换行符之间的字符也被忽略. 这个修饰符等同于perl中的/x修饰符, 使被编译模式中可以包含注释. 注意: 这仅用于数据字符. 空白字符还是不能在模式的特殊字符序列中出现, 比如序列(?(引入了一个条件子组(译注: 这种语法定义的特殊字符序列中如果出现空白字符会导致编译错误. 比如( ?(就会导致错误.).

e (PREG_REPLACE_EVAL)

如果这个修饰符设置了, preg_replace()在进行了对替换字符串的后向引用替换之后, 将替换后的字符串作为php代码评估执行(eval函数方式), 并使用执行结果作为实际参与替换的字符串. 单引号, 双引号, 反斜线(\)和NULL字符在后向引用替换时会被用反斜线转义.