int preg_match_all ( string pattern, string subject, array &matches [, int flags] )
最近在研究爬虫,对抓取的页面进行解析,需要用到这个函数。由于之前对这个函数只是一知半解,结果被狠狠地坑了一把。
flags 是可省略的,默认值是PREG_PATTERN_ORDER,还可以有其他值,这个会影响matches的内容形式。但这个不重要,只需知道缺省flags时,matches是什么样子就可以了。
pattern和subject就不多说了,重点说一说matches。
matches(注意这里是引用)是一个二维数组,matches[0] 是整个pattern匹配的结果。matches[1] 是第一个子模式(正则表达式中的子模式,就是圆括号括起来的部分)匹配的结果,matches是 第二个子模式的匹配结果。
而且,这个函数的返回值是整个pattern匹配到的结果数量。
现举例说明:
<?php
$pattern = "/<[^>]+>(.*)<\/[^>]+>/U";
$subject = "<b>example:</b><div align = left>this is a test</div>";
preg_match_all($pattern,$subject,$out);
print_r($out);
?>
注意$pattern中标红的就是子模式。
注意这个结果的形式,array[0]是整个pattern匹配到的结果,array[1]是pattern中子模式 (.*) 所匹配到的结果。但是array[1]匹配的结果是和array[0]中的结果相对应。