php 爬虫例子

最新推荐文章于 2024-08-24 16:40:35 发布

pendant59

最新推荐文章于 2024-08-24 16:40:35 发布

阅读量329

点赞数

分类专栏： php 文章标签：爬虫

php 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

亲测：

php的一个扩展类:simple_html_dom.php

这个亲测可用,已经写好,有空就整理一下发上来.

类的使用方法注意$e能用的方法

http://blog.csdn.net/sun886/article/details/7929112

其实，如果有兴趣写爬虫的话，可以研究python，毕竟python的特长就是大数据处理。

未实测：

1.强大的snoopy类

这个可以模仿浏览器发送请求，非常强大，推荐最多的也是这个

这个还没找相关资料

2.使用php自带的curl爬取数据需要配合正则表达式：

网页链接:

http://www.cnblogs.com/hanybblog/p/6225626.html

http://www.cnblogs.com/weishang/p/4909251.html

先复制上,以后整理.

3.phpQuery

下面简单举例：

include 'phpQuery.php'; 
phpQuery::newDocumentFile('http://www.phper.org.cn'); echo pq("title")->text(); // 获取网页标题 echo pq("div#header")->html(); // 获取id为header的div的html内容

上例中第一行引入phpQuery.PHP文件，

第二行通过newDocumentFile加载一个文件，

第三行通过pq()函数获取title标签的文本内容，

第四行获取id为header的div标签所包含的HTML内容。

主要做了两个动作，即加载文件和读取文件内容。

二、载入文档（loading documents）

加载文档主要通过phpQuery::newDocument来进行操作，其作用是使得phpQuery可以在服务器预先读取到指定的文件或文本内容。

主要的方法包括：

phpQuery::newDocument($html, $contentType = null)

phpQuery::newDocumentFile($file, $contentType = null)

phpQuery::newDocumentHTML($html, $charset = ‘utf-8′)

phpQuery::newDocumentXHTML($html, $charset = ‘utf-8′)

phpQuery::newDocumentXML($html, $charset = ‘utf-8′)

phpQuery::newDocumentPHP($html, $contentType = null)

phpQuery::newDocumentFileHTML($file, $charset = ‘utf-8′)

phpQuery::newDocumentFileXHTML($file, $charset = ‘utf-8′)

phpQuery::newDocumentFileXML($file, $charset = ‘utf-8′)

phpQuery::newDocumentFilePHP($file, $contentType)

三、pq()函数用法

pq()函数的用法是phpQuery的重点，主要分两部分：即选择器和过滤器

【选择器】

要了解phpQuery选择器的用法，建议先了解jQuery的语法

最常用的语法包括有：

pq('#id')：即以#号开头的ID选择器，用于选择已知ID的容器所包括的内容

pq('.classname')：即以.开头的class选择器，用于选择class匹配的容器内容

pq('parent > child')：选择指定层次结构的容器内容，如：pq('.main > p')用于选择class=main容器的所有p标签

更多的语法请参考jquery手册

【过滤器】

主要包括：:first,:last,:not,:even,:odd,:eq(index),:gt(index),:lt(index),:header,:animated等

如：

pq('p:last')：用于选择最后一个p标签

pq('tr:even')：用于选择表格中偶然行

四、phpQuery连贯操作

pq()函数返回的结果是一个phpQuery对象，可以对返回结果继续进行后续的操作，例如：

pq('a')->attr('href', 'newVal')->removeClass('className')->html('newHtml')->...

详情请查阅jQuery相关资料，用法基本一致，只需要注意.与->的区别即可。

pendant59

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录