php 访问网页元素,简述php关于网页元素抓取方面的技术

最新推荐文章于 2024-03-08 21:59:45 发布

转载最新推荐文章于 2024-03-08 21:59:45 发布 · 210 阅读

·

0

·

文章标签：

#php 访问网页元素

这篇博客介绍了PHP进行网页内容抓取时的DOM解析技术，包括使用PHP内置的XPath、phpQuery（类似jQuery的选择器）以及SimpleHtmlDom。通过示例代码展示了如何选取特定元素，并提供了phpcrawl这个PHP抓取系统的源码链接供进一步学习。

对于php抓取网页的内容，可能比较难的就是dom解析这一部分了，这儿的话有几种技术推荐给大家，具体使用哪种就看自己的喜欢了

1.php自带的xpath解析技术

xpath的话具体可以百度一下他的用法，我只举几个简单的例子，废话不多说，代码如下

error_reporting(0);

$url='http://www.baidu.com';//此处写抓取的网页的网址，我随便写的

$html=file_get_contents($url);

$dom=new DOMDocument;

$dom->loadHTML($html);

$xml=simplexml_import_dom($dom);

$nav=$xml->xpath('//p[@id="nv"]');//这儿简单解释一下，就是调用simplexml的xpath方法，传入符合xpath语法的字符串就行了，我这儿的意思是，获取所有id属性值为nv的p标签元素

print_r($nav);

2.phpquery，

phpquery是基于jQuery选择器的dom解析器，如果经常用jQuery的话会很喜欢这个工具的，下面说说他的用法

include 'phpQuery.php';

phpQuery::newDocumentFile('http://job.blueidea.com');

$companies = pq('#hotcoms .coms')->find('div');

foreach($companies as $company)

{

echo pq($company)->find('h3 a')->text()."

";

}

简单解释一下：

pq()就像jQuery里的$()

基本上jQuery的选择器都可以用在phpQuery上，只要把’.'变成’->’

phpQuery提供了好几种载入文件的方法，有的使用字符串，有的使用文件(包括url)，选择的时候要注意 3.simplehtmldom

官方手册：http://www.ecartchina.com/php-simple-html-dom/manual.htm

自己看吧，一会就看懂了，我花了半个小时不到的时候就熟练的运用了

对了，这儿还有一个php的抓取系统，phpcrawl，如果想了解php搜索引擎方面的一些知识，可以看看他的源码：

源码下载地址

http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/

本条技术文章来源于互联网，如果无意侵犯您的权益请点击此处反馈版权投诉

本文系统来源：php中文网

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。