PHP中的正则表达式

最新推荐文章于 2024-10-04 10:53:49 发布

星际飘渺

最新推荐文章于 2024-10-04 10:53:49 发布

阅读量667

点赞数

分类专栏： PHP 文章标签： php 正则表达式 string html javascript output

本文链接：https://blog.csdn.net/mappp/article/details/6825725

版权

PHP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.元字符

$ ( ) * . ? [ ] { } | ^ +

这些元字符是一些具有特殊功能的字符。

元字符的匹配需要用\(反斜杠)来进行匹配

例如：\$ 即匹配 $

\* .... *

另外有两个元字符不用进行反斜杠转义匹配。

}只有在一个没有转义的 { 之后才会成为元字符，否则它只是一个普通匹配字符选项{。

另外也可以用\Q来抑制元字符的转义。\Q会抑制之后的所有元字符的含义（即转义），直至出现\E停止。若无\E,则直至结尾。

2.元字符含义/模式修饰符

* 匹配前一个内容的0次1次或多次

. 匹配内容的0次1次或多次，但不包含回车换行

+ 匹配前一个内容的1次或多次

？匹配前一个内容的0次或1次

| 选择匹配类似PHP中的| （因为这个运算符合是弱类型导致前面最为整体匹配）

^ 匹配字符串首部内容

$ 匹配字符串尾部内容

\b 匹配单词边界，边界可以是空格或者特殊符合

\B 匹配除带单词边界意外内容

{m} 匹配前一个内容的重复次数为M次

{m,} 匹配前一个内容的重复次数大于等于M次

{m,n} 匹配前一个内容的重复次数M次到N次

( ) 合并整体匹配，并放入内存，可使用\1 \2…依次获取

3PHP中的常用正则函数（欲知详情，请参考PHP手册）

preg_match()

函数原型int preg_match ( string pattern, string subject [, array matches [, int flags]] )

在 subject 字符串中搜索与 pattern 给出的正则表达式相匹配的内容。

如果提供了 matches，则其会被搜索的结果所填充。$matches[0] 将包含与整个模式匹配的文本，$matches[1] 将包含与第一个捕获的括号中的子模式所匹配的文本，以此类推。

该函数可以用于不同的目的。调用它的最基本的方式是只需要两个必须的形参：即包含正则表达式的字符串，以及包含你要匹配的字符串。如果Preg_match()匹配成功,就会返回1；否则函数返回0；另外preg_match()函数还可以接受第三个可选参数，以保存正则表达式匹配到的文本，以及它的捕获分组。当preg_match()的返回值是1时，该变量（第三个参数变量）会包含一个字符串数组。其中在该数组中的第0个元素中包含整个的正则表达式匹配串。另外的则是捕获分组的匹配串（可能为空）。

另外该函数还可以接受第四个参数。

当为 PREG_OFFSET_CAPTURE时，

则表示对每个出现的匹配结果也同时返回其附属的字符串偏移量。注意这改变了返回的数组的值，使其中的每个单元也是一个数组，其中第一项为匹配字符串，第二项为其偏移量。本标记自 PHP 4.3.0 起可用。（手册）

Preg_match_all()

函数原型

int preg_match_all ( string pattern, string subject, array matches [, int flags] )

在 subject 中搜索所有与 pattern 给出的正则表达式匹配的内容并将结果以 flags 指定的顺序放到 matches 中。

搜索到第一个匹配项之后，接下来的搜索从上一个匹配项末尾开始。

flags 可以是下列标记的组合（注意把 PREG_PATTERN_ORDER 和 PREG_SET_ORDER 合起来用没有意义）：

PREG_PATTERN_ORDER

对结果排序使 $matches[0] 为全部模式匹配的数组，$matches[1] 为第一个括号中的子模式所匹配的字符串组成的数组，以此类推。

<?php
 preg_match_all ("|<[^>]+>(.*)</[^>]+>|U",
     "<b>example: </b><div align=left>this is a test</div>",
     $out,  PREG_PATTERN_ORDER);
 print $out[0][0].", ".$out[0][1]."\n";
 print $out[1][0].", ".$out[1][1]."\n";
 ?>

本例将输出：

<b>example: </b>, <div align=left>this is a test</div>
example: , this is a test

因此，$out[0] 包含匹配整个模式的字符串，$out[1] 包含一对 HTML 标记之间的字符串。

PREG_SET_ORDER

对结果排序使 $matches[0] 为第一组匹配项的数组，$matches[1] 为第二组匹配项的数组，以此类推。

<?php
 preg_match_all ("|<[^>]+>(.*)</[^>]+>|U",
     "<b>example: </b><div align=left>this is a test</div>",
     $out,  PREG_SET_ORDER);
 print $out[0][0].", ".$out[0][1]."\n";
 print $out[1][0].", ".$out[1][1]."\n";
 ?>

本例将输出：

<b>example: </b>, example:
<div align=left>this is a test</div>, this is a test

本例中，$matches[0] 是第一组匹配结果，$matches[0][0] 包含匹配整个模式的文本，$matches[0][1] 包含匹配第一个子模式的文本，以此类推。同样，$matches[1] 是第二组匹配结果，等等。

PREG_OFFSET_CAPTURE

如果设定本标记，对每个出现的匹配结果也同时返回其附属的字符串偏移量。注意这改变了返回的数组的值，使其中的每个单元也是一个数组，其中第一项为匹配字符串，第二项为其在 subject 中的偏移量。本标记自 PHP 4.3.0 起可用。

如果没有给出标记，则假定为 PREG_PATTERN_ORDER。

返回整个模式匹配的次数（可能为零），如果出错返回 FALSE。

例子 1. 从某文本中取得所有的电话号码

<?php
 preg_match_all ("/\(?  (\d{3})?  \)?  (?(1)  [\-\s] ) \d{3}-\d{4}/x",
                 "Call 555-1212 or 1-800-555-1212", $phones);
 ?>

例子 2. 搜索匹配的 HTML 标记（greedy）

<?php
 // \\2 是一个逆向引用的例子，其在 PCRE 中的含义是
 // 必须匹配正则表达式本身中第二组括号内的内容，本例中
 // 就是 ([\w]+)。因为字符串在双引号中，所以需要
 // 多加一个反斜线。
 $html =  "<b>bold text</b><a href=howdy.html>click me</a>";
 
 preg_match_all ("/(<([\w]+)[^>]*>)(.*)(<\/\\2>)/", $html,  $matches);
 
 for ($i=0; $i<  count($matches[0]); $i++) {
   echo "matched: ".$matches[0][$i]."\n";
   echo "part 1: ".$matches[1][$i]."\n";
   echo "part 2: ".$matches[3][$i]."\n";
   echo "part 3: ".$matches[4][$i]."\n\n";
 }
 ?>

本例将输出：

matched: <b>bold text</b>
part 1: <b>
part 2: bold text
part 3: </b>

matched: <a href=howdy.html>click me</a>
part 1: <a href=howdy.html>
part 2: click me
part 3: </a>

（PHP参考手册）

preg_replace()

函数原型

mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit] )

在 subject 中搜索 pattern 模式的匹配项并替换为 replacement。如果指定了 limit，则仅替换 limit 个匹配，如果省略 limit 或者其值为 -1，则所有的匹配项都会被替换。

replacement 可以包含 \\n 形式或（自 PHP 4.0.4 起）$n 形式的逆向引用，首选使用后者。每个此种引用将被替换为与第 n 个被捕获的括号内的子模式所匹配的文本。n 可以从 0 到 99，其中 \\0 或 $0 指的是被整个模式所匹配的文本。对左圆括号从左到右计数（从 1 开始）以取得子模式的数目。

对替换模式在一个逆向引用后面紧接着一个数字时（即：紧接在一个匹配的模式后面的数字），不能使用熟悉的 \\1 符号来表示逆向引用。举例说 \\11，将会使 preg_replace() 搞不清楚是想要一个 \\1 的逆向引用后面跟着一个数字 1 还是一个 \\11 的逆向引用。本例中的解决方法是使用 \${1}1。这会形成一个隔离的 $1 逆向引用，而使另一个 1 只是单纯的文字。

例子 1. 逆向引用后面紧接着数字的用法

<?php
 $string = "April 15, 2003";
 $pattern =  "/(\w+) (\d+), (\d+)/i";
 $replacement = "\${1}1,\$3";
 print preg_replace($pattern, $replacement, $string);
 
 /* Output
    ======
 
 April1,2003
 
 */
 ?>

如果搜索到匹配项，则会返回被替换后的 subject，否则返回原来不变的 subject。

preg_replace() 的每个参数（除了 limit）都可以是一个数组。如果 pattern 和 replacement 都是数组，将以其键名在数组中出现的顺序来进行处理。这不一定和索引的数字顺序相同。如果使用索引来标识哪个 pattern 将被哪个 replacement 来替换，应该在调用 preg_replace() 之前用 ksort() 对数组进行排序。

例子 2. 在 preg_replace() 中使用索引数组

<?php
 $string = "The quick brown fox jumped over the lazy dog.";
 
 $patterns[0] = "/quick/";
 $patterns[1] = "/brown/";
 $patterns[2] = "/fox/";
 
 $replacements[2] = "bear";
 $replacements[1] = "black";
 $replacements[0] = "slow";
 
 print preg_replace($patterns, $replacements, $string);
 
 /* Output
    ======
 
 The bear black slow jumped over the lazy dog.
 
 */
 
 /* By ksorting patterns and replacements,
    we should get what we wanted. */
 
 ksort($patterns);
 ksort($replacements);
 
 print preg_replace($patterns, $replacements, $string);
 
 /* Output
    ======
 
 The slow black bear jumped over the lazy dog.
 
 */
 
 ?>

如果 subject 是个数组，则会对 subject 中的每个项目执行搜索和替换，并返回一个数组。

如果 pattern 和 replacement 都是数组，则 preg_replace() 会依次从中分别取出值来对 subject 进行搜索和替换。如果 replacement 中的值比 pattern 中的少，则用空字符串作为余下的替换值。如果 pattern 是数组而 replacement 是字符串，则对 pattern 中的每个值都用此字符串作为替换值。反过来则没有意义了。

/e 修正符使 preg_replace() 将 replacement 参数当作 PHP 代码（在适当的逆向引用替换完之后）。提示：要确保 replacement 构成一个合法的 PHP 代码字符串，否则 PHP 会在报告在包含 preg_replace() 的行中出现语法解析错误。

例子 3. 替换数个值

<?php
 $patterns = array ("/(19|20)(\d{2})-(\d{1,2})-(\d{1,2})/",
                    "/^\s*{(\w+)}\s*=/");
 $replace = array ("\\3/\\4/\\1\\2", "$\\1 =");
 print preg_replace ($patterns, $replace,  "{startDate} = 1999-5-27");
 ?>

本例将输出：

$startDate = 5/27/1999

例子 4. 使用 /e 修正符

<?php
 preg_replace ("/(<\/?)(\w+)([^>]*>)/e",
               "'\\1'.strtoupper('\\2').'\\3'",
               $html_body);
 ?>

这将使输入字符串中的所有 HTML 标记变成大写。

例子 5. 将 HTML 转换成文本

<?php
 // $document 应包含一个 HTML 文档。
 // 本例将去掉 HTML 标记，javascript 代码
 // 和空白字符。还会将一些通用的
 // HTML 实体转换成相应的文本。
 
 $search = array ("'<script[^>]*?>.*?</script>'si",  // 去掉 javascript
                  "'<[\/\!]*?[^<>]*?>'si",           // 去掉 HTML 标记
                  "'([\r\n])[\s]+'",                 // 去掉空白字符
                  "'&(quot|#34);'i",                 // 替换 HTML 实体
                  "'&(amp|#38);'i",
                  "'&(lt|#60);'i",
                  "'&(gt|#62);'i",
                  "'&(nbsp|#160);'i",
                  "'&(iexcl|#161);'i",
                  "'&(cent|#162);'i",
                  "'&(pound|#163);'i",
                  "'&(copy|#169);'i",
                  "'&#(\d+);'e");                    // 作为 PHP 代码运行
 
 $replace = array ("",
                   "",
                   "\\1",
                   "\"",
                   "&",
                   "<",
                   ">",
                   " ",
                   chr(161),
                   chr(162),
                   chr(163),
                   chr(169),
                   "chr(\\1)");
 
 $text =  preg_replace ($search, $replace,  $document
 ?>