抓取网页文本,通常做法是采用正则表达式,但是对于正则表达式不熟悉的人可能就难啦。phpQuery就是可以不用正则,就像jquery一样,分析网页元素。
比如说我要获取class为.test的元素的文本
在jquery中,我们可以这样写:
$(".test").text();
获取html内容:
$(".test").html();
呢么我们采用phpQuery类似于这种写法。
首先下载phpQuery,http://code.google.com/p/phpquery/
解压缩后放到工程目录下面,导入phpQuery.php
代码如下:
require_once("plugins/phpQuery/phpQuery/phpQuery.php");
$t = file_get_contents("http://blogread.cn/it/article/1617?f=wb");
file_put_contents("d:/project/joomla/test.html", $t);
$html = phpQuery::newDocumentFileHTML("d:/project/joomla/test.html","utf-8");
echo $html->find(".topnav")->html();
它还可以解析xml,等格式。更多的用法,可以参考目录里面的demo.php。