正则表达式备忘录B

最新推荐文章于 2024-10-14 10:12:09 发布

iteye_3224

最新推荐文章于 2024-10-14 10:12:09 发布

阅读量96

点赞数

留下备忘一下...

如果不经常写正则,还是经常复习一下的好

---------------------------------------------------------

实例大全内容摘自regularlab

表达式 "\d\d"，在匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："12"；匹配到的位置是：开始于3，结束于5。

表达式 "a.\d"，在匹配 "aaa100" 时，匹配的结果是：成功；匹配到的内容是："aa1"；匹配到的位置是：开始于1，结束于4。

表达式 "[bcd][bcd]" 匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："bc"；匹配到的位置是：开始于1，结束于3。

表达式 "[^abc]" 匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："1"；匹配到的位置是：开始于3，结束于4。

表达式 "\d+\.?\d*" 在匹配 "It costs $12.5" 时，匹配的结果是：成功；匹配到的内容是："12.5"；匹配到的位置是：开始于10，结束于14。

表达式 "go{2,8}gle" 在匹配 "Ads by goooooogle" 时，匹配的结果是：成功；匹配到的内容是："goooooogle"；匹配到的位置是：开始于7，结束于17。

表达式 "^aaa" 在匹配 "xxx aaa xxx" 时，匹配结果是：失败。因为 "^" 要求与字符串开始的地方匹配，因此，只有当 "aaa" 位于字符串的开头的时候，"^aaa" 才能匹配，比如："aaa xxx xxx"。

表达式 "aaa$" 在匹配 "xxx aaa xxx" 时，匹配结果是：失败。因为 "$" 要求与字符串结束的地方匹配，因此，只有当 "aaa" 位于字符串的结尾的时候，"aaa$" 才能匹配，比如："xxx xxx aaa"。

表达式 ".\b." 在匹配 "@@@abc" 时，匹配结果是：成功；匹配到的内容是："@a"；匹配到的位置是：开始于2，结束于4。

进一步说明："\b" 与 "^" 和 "$" 类似，本身不匹配任何字符，但是它要求它在匹配结果中所处位置的左右两边，其中一边是 "\w" 范围，另一边是非"\w" 的范围。

表达式 "\bend\b" 在匹配 "weekend,endfor,end" 时，匹配结果是：成功；匹配到的内容是："end"；匹配到的位置是：开始于15，结束于18。

表达式 "Tom|Jack" 在匹配字符串 "I'm Tom, he is Jack" 时，匹配结果是：成功；匹配到的内容是："Tom"；匹配到的位置是：开始于4，结束于7。匹配下一个时，匹配结果是：成功；匹配到的内容是："Jack"；匹配到的位置时：开始于15，结束于19。

表达式 "(go\s*)+" 在匹配 "Let's go go go!" 时，匹配结果是：成功；匹配到内容是："go go go"；匹配到的位置是：开始于6，结束于14。

表达式 "￥(\d+\.?\d*)" 在匹配 "＄10.9,￥20.5" 时，匹配的结果是：成功；匹配到的内容是："￥20.5"；匹配到的位置是：开始于6，结束于10。单独获取括号范围匹配到的内容是："20.5"。

表达式 "<td>(.*)</td>" 与字符串 "<td>aa</td> <td>bb</td>" 匹配时，匹配的结果是：成功；匹配到的内容是 "<td>aa</td> <td>bb</td>" 整个字符串，表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。

相比之下，表达式 "<td>(.*?)</td>" 匹配举例1中同样的字符串时，将只得到 "<td>aa</td>"，再次匹配下一个时，可以得到第二个 "<td>bb</td>"。

表达式 "('|")(.*?)(\1)" 在匹配 " 'Hello', "World" " 时，匹配结果是：成功；匹配到的内容是：" 'Hello' "。再次匹配下一个时，可以匹配到 " "World" "。

表达式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 时，匹配结果是：成功；匹配到的内容是 "ccccc"。再次匹配下一个时，将得到 999999999。这个表达式要求 "\w" 范围的字符至少重复5次，注意与 "\w{5,}" 之间的区别。

表达式 "<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 时，匹配结果是成功。如果 "<td>" 与 "</td>" 不配对，则会匹配失败；如果改成其他配对，也可以匹配成功。

表达式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 时，将只匹配 "Windows NT" 中的 "Windows "，其他的 "Windows " 字样则不被匹配。

表达式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 时，将可以匹配6个"f"的前4个，可以匹配9个"9"的前7个。这个表达式可以读解成：重复4次以上的字母数字，则匹配其剩下最后2位之前的部分。当然，这个表达式可以不这样写，在此的目的是作为演示之用。

表达式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 时，将从头一直匹配到 "stop" 之前的位置，如果字符串中没有 "stop"，则匹配整个字符串。

表达式 "do(?!\w)" 在匹配字符串 "done, do, dog" 时，只能匹配 "do"。在本条举例中，"do" 后边使用 "(?!\w)" 和使用 "\b" 效果是一样的。

表达式 "(?<=\d{4})\d+(?=\d{4})" 在匹配 "1234567890123456" 时，将匹配除了前4个数字和后4个数字之外的中间8个数字。

表达式 "(?:(\w)\1)+" 匹配 "a bbccdd efg" 时，结果是 "bbccdd"。括号 "(?:)" 范围的匹配结果不进行记录，因此 "(\w)" 使用 "\1" 来引用。

---------------------------------------------------------

模式修正符内容摘自php手册

i (PCRE_CASELESS)

如果设定此修正符，模式中的字符将同时匹配大小写字母。

m（PCRE_MULTILINE）

默认情况下，PCRE 将目标字符串作为单一的一“行”字符所组成的（甚至其中包含有换行符也是如此）。“行起始”元字符（^）仅仅匹配字符串的起始，“行结束”元字符（$）仅仅匹配字符串的结束，或者最后一个字符是换行符时其前面（除非设定了 D 修正符）。这和 Perl 是一样的。当设定了此修正符，“行起始”和“行结束”除了匹配整个字符串开头和结束外，还分别匹配其中的换行符的之后和之前。这和 Perl 的 /m 修正符是等效的。如果目标字符串中没有“\n”字符或者模式中没有 ^ 或 $，则设定此修正符没有任何效果。

s（PCRE_DOTALL）

如果设定了此修正符，模式中的圆点元字符（.）匹配所有的字符，包括换行符。没有此设定的话，则不包括换行符。这和 Perl 的 /s 修正符是等效的。排除字符类例如 [^a] 总是匹配换行符的，无论是否设定了此修正符。

x（PCRE_EXTENDED）

如果设定了此修正符，模式中的空白字符除了被转义的或在字符类中的以外完全被忽略，在未转义的字符类之外的 # 以及下一个换行符之间的所有字符，包括两头，也都被忽略。这和 Perl 的 /x 修正符是等效的，使得可以在复杂的模式中加入注释。然而注意，这仅适用于数据字符。空白字符可能永远不会出现于模式中的特殊字符序列，例如引入条件子模式的序列 (?( 中间。

如果设定了此修正符，preg_replace() 在替换字符串中对逆向引用作正常的替换，将其作为 PHP 代码求值，并用其结果来替换所搜索的字符串。

只有 preg_replace() 使用此修正符，其它 PCRE 函数将忽略之。

Note: 本修正符在 PHP3 中不可用。

A（PCRE_ANCHORED）

如果设定了此修正符，模式被强制为“anchored”，即强制仅从目标字符串的开头开始匹配。此效果也可以通过适当的模式本身来实现（在 Perl 中实现的唯一方法）。

D（PCRE_DOLLAR_ENDONLY）

如果设定了此修正符，模式中的美元元字符仅匹配目标字符串的结尾。没有此选项时，如果最后一个字符是换行符的话，美元符号也会匹配此字符之前（但不会匹配任何其它换行符之前）。如果设定了 m 修正符则忽略此选项。Perl 中没有与其等价的修正符。

当一个模式将被使用若干次时，为加速匹配起见值得先对其进行分析。如果设定了此修正符则会进行额外的分析。目前，分析一个模式仅对没有单一固定起始字符的 non-anchored 模式有用。

U（PCRE_UNGREEDY）

本修正符反转了匹配数量的值使其不是默认的重复，而变成在后面跟上“?”才变得重复。这和 Perl 不兼容。也可以通过在模式之中设定 (?U) 修正符或者在数量符之后跟一个问号（如 .*?）来启用此选项。

X（PCRE_EXTRA）

此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式中的任何反斜线后面跟上一个没有特殊意义的字母导致一个错误，从而保留此组合以备将来扩充。默认情况下，和 Perl 一样，一个反斜线后面跟一个没有特殊意义的字母被当成该字母本身。当前没有其它特性受此修正符控制。

u（PCRE_UTF8）

此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式字符串被当成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用，在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起开始检查模式的 UTF-8 合法性。

---------------------------------------------------------

元字符

有数种用途的通用转义符

断言目标的开头（或在多行模式下行的开头，即紧随一换行符之后）

断言目标的结尾（或在多行模式下行的结尾，即紧随一换行符之前）

匹配除了换行符外的任意一个字符（默认情况下）

[

字符类定义开始

]

字符类定义结束

开始一个多选一的分支

(

子模式开始

)

子模式结束

扩展 ( 的含义，也是 0 或 1 数量限定符，以及数量限定符最小值? 等同于 {0,1}

匹配 0 个或多个的数量限定符* 等同于 {0,}

匹配 1 个或多个的数量限定符+ 等同于 {1,}

{

最少／最多数量限定开始 {0,1}

}

最少／最多数量限定结束 {3,9}

---------------------------------------------------------

模式[]内元字符,以[开始

通用转义字符

排除字符类，但仅当其为第一个字符时有效

指出字符范围

]

结束字符类

---------------------------------------------------------

任一十进制数字

任一非十进制数的字符

任一空白字符

任一非空白字符

任一“字”的字符

任一“非字”的字符

字分界线

非字分界线

目标的开头（独立于多行模式）

目标的结尾或位于结尾的换行符前（独立于多行模式）

目标的结尾（独立于多行模式）

目标中的第一个匹配位置

alarm，即 BEL 字符（0x07）

\cx

"control-x"，其中 x 是任意字符

escape（0x1B）

换页符 formfeed（0x0C）

换行符 newline（0x0A）

回车符 carriage return（0x0D）

制表符 tab（0x09）

\xhh

十六进制代码为 hh 的字符

\ddd

八进制代码为 ddd 的字符，或 backreference

\040

另一种表示空格的方法

\40

同上，如果之前捕获的子模式少于 40 个的话

总是一个逆向引用

\11

可能是个逆向引用，或者是制表符 tab

\011

总是表示制表符 tab

\0113

表示制表符 tab 后面跟着一个字符“3”

\113

表示八进制代码为 113 的字符（因为不能超过 99 个逆向引用）

\377

表示一个所有的比特都是 1 的字节

\81

要么是一个逆向引用，要么是一个二进制的零后面跟着两个字符“8”和“1”

\p{xx}

具有 xx 属性的一个字符

\P{xx}

没有 xx 属性的一个字符

一个扩展 Unicode 序列

以上三个使用的 Unicode 字符属性

C Other - 其它

Cc Control - 控制

Cf Format - 格式

Cn Unassigned - 无符号

Co Private use - 私有

Cs Surrogate - 代替

L Letter -字母

Ll Lower case letter - 小写字母

Lm Modifier letter - 修正符字母

Lo Other letter - 其它字母

Lt Title case letter - 标题大写字母

Lu Upper case letter - 大写字母

M Mark - 标记

Mc Spacing mark - 空格标记

Me Enclosing mark - 环绕标记

Mn Non-spacing mark - 非空格标记

N Number - 数字

Nd Decimal number - 十进制数字

Nl Letter number - 字母数字

No Other number - 其它数字

P Punctuation - 标点符号

Pc Connector punctuation - 连接标点符

Pd Dash punctuation - 横线标点符

Pe Close punctuation - 结束标点符

Pf Final punctuation - 最终标点符

Pi Initial punctuation - 起始标点符

Po Other punctuation - 其它标点符号

Ps Open punctuation - 开始标点符

S Symbol - 符号

Sc Currency symbol - 货币符号

Sk Modifier symbol - 修正符号

Sm Mathematical symbol - 算术符号

So Other symbol - 其它符号

Z Separator - 分隔符

Zl Line separator - 行分隔符

Zp Paragraph separator - 段落分隔符

Zs Space separator - 空格分隔符

---------------------------------------------------------

内部选项设定

i 代表 PCRE_CASELESS

m 代表 PCRE_MULTILINE

s 代表 PCRE_DOTALL

x 代表 PCRE_EXTENDED

U 代表 PCRE_UNGREEDY

X 代表 PCRE_EXTRA

/ab(?i)c/ 只匹配 "abc" 和 and "abC"

---------------------------------------------------------

iteye_3224

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫