开发PHPSpider爬虫的常用工具

“工欲善其事,必先利其器”,开发PHPSpider爬虫,起码得有几件顺手的工具才行吧,接下来给你逐个介绍。

谷歌Chrome浏览器

说起谷歌的Chrome浏览器(以下简称Chrome),相信大家都耳熟能详了吧,不仅使用流畅,而且功能强大,对开发PHPSpider爬虫非常有帮助。

我们主要使用的是Chrome的开发者工具,如下图所示:

或者可以直接在网页上点击鼠标右键,选择“检查”,也可打开开发者工具。

开发者工具顶部有Elements、Console、Network等八个栏目。常用的有三个:Elements,用来查看需爬取字段的HTML标签信息;Console,可以检测你的JS代码;Network,用来分析HTTP请求。

XPath Helper

XPath Helper是Chrome浏览器的插件,可以在Chrome应用商店安装下载,主要用来分析当前网页信息的XPath,并将其精简化。具体操作步骤如下:

1、在Chrome浏览器上,选择抽取的html字段并右击,点击“检查”,即可弹出开发者工具;右击已选字段,点击Copy XPath即可将该字段的XPath保存到浏览器剪贴板上,如下图所示:

2、打开XPath Helper插件,将得到的XPath复制进去,最好进行简化修改后再使用,如下图所示:

3、在XPath中,如果使用class属性来定位元素,最好使用contains函数,因为元素可能含有多个class:

(
    "name" => "article_title",
    "selector" => "//div[contains(@class,'page-header')]//h1/a"
),

4、在XPath中,如果使用id属性来定位元素,因为理论上id是唯一的,可以直接使用*[@id='']:

(
    "name" => "article_content",
    "selector" => "//*[@id='single-next-link']"
),

DHC REST

DHC REST也是Chrome浏览器的插件,可以在Chrome应用商店安装下载,主要用来模拟HTTP客户端发送测试数据到服务器。HTTP Get请求在开发中比较常用。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瑆箫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值