php 访问网页元素,简述php关于网页元素抓取方面的技术

对于php抓取网页的内容,可能比较难的就是dom解析这一部分了,这儿的话有几种技术推荐给大家,具体使用哪种就看自己的喜欢了

1.php自带的xpath解析技术

xpath的话具体可以百度一下他的用法,我只举几个简单的例子,废话不多说,代码如下

error_reporting(0);

$url='http://www.baidu.com';//此处写抓取的网页的网址,我随便写的

$html=file_get_contents($url);

$dom=new DOMDocument;

$dom->loadHTML($html);

$xml=simplexml_import_dom($dom);

$nav=$xml->xpath('//p[@id="nv"]');//这儿简单解释一下,就是调用simplexml的xpath方法,传入符合xpath语法的字符串就行了,我这儿的意思是,获取所有id属性值为nv的p标签元素

print_r($nav);

2.phpquery,

phpquery是基于jQuery选择器的dom解析器,如果经常用jQuery的话会很喜欢这个工具的,下面说说他的用法

include 'phpQuery.php';

phpQuery::newDocumentFile('http://job.blueidea.com');

$companies = pq('#hotcoms .coms')->find('div');

foreach($companies as $company)

{

echo pq($company)->find('h3 a')->text()."

";

}

简单解释一下 :

pq()就像jQuery里的$()

基本上jQuery的选择器都可以用在phpQuery上,只要把’.'变成’->’

phpQuery提供了好几种载入文件的方法,有的使用字符串,有的使用文件(包括url),选 择的时候要注意 3.simplehtmldom

官方手册:http://www.ecartchina.com/php-simple-html-dom/manual.htm

自己看吧,一会就看懂了,我花了半个小时不到的时候就熟练的运用了

对了,这儿还有一个php的抓取系统,phpcrawl,如果想了解php搜索引擎方面的一些知识,可以看看他的源码:

源码下载地址

http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/

本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉

本文系统来源:php中文网

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值