PhantomJS的简介与安装

最新推荐文章于 2022-07-18 06:00:00 发布

暮烟沉沉

最新推荐文章于 2022-07-18 06:00:00 发布

阅读量356

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35866413/article/details/81545711

版权

Python 专栏收录该内容

18 篇文章 4 订阅

订阅专栏

前面我们尝试了用爬虫框架scrapy来更加快速、高效的爬取网站的信息，不难发现，在爬去静态网页时，scrapy可以轻松胜任，但是遇到动态网页时，我们别会束手无策。今天我给大家推荐一个可以配合scrapy使用的、用来爬取动态网页信息的工具——PhantomJS。

这个工具包含在selenium中，前文我们使用过selenium爬取动态网页，它内部的PhantomJS工具则可以搭配scrapy框架进行动态网页爬虫。关于它，有以下几点需要说明：

（1）一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现。

（2）提供javascript API接口，即通过编写js程序可以直接与webkit内核交互，在此之上可以结合java语言等，通过java调用js等相关操作，从而解决了以前c/c++才能比较好的基于webkit开发优质采集器的限制。

（3）提供windows、linux、mac等不同os的安装使用包，也就是说可以在不同平台上二次开发采集项目或是自动项目测试等工作。

在使用scrapy进行爬虫时，当引擎从调度器中取出request进行请求的时候发送给下载器之前会先执行当前的爬虫中间件，在中间件里使用selenium，请求这个request，拿到动态网站的数据然后将请求返回给spider爬虫对象。

接下来我们了解一下它的安装和使用：

1. 去官网下载压缩包，下载链接:http://phantomjs.org/download.html,打开网页后下载自己对应系统的的版本。

2. 下载完成后，将压缩包拖拽至Python的安装目录中（为了方便管理），比如我便将其解压在Pycharm的同级目录中。

3. 成功解压后，便是最重要的一步——配置环境变量。具体操作为：打开我的电脑->右键属性->高级系统设置->高级标签->环境变量，在系统变量里找到Path,在其末尾写上分号;然后将你的phantomjs完整路径添加到环境变量里，最后一次点确定即可，为了确保成功，不妨注销或重启电脑。

4. 配置完环境变量之后，打开PyCharm编写一个小程序，如下图所示，若不报错即表明安装成功。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PhantomJS的简介与安装

前面我们尝试了用爬虫框架scrapy来更加快速、高效的爬取网站的信息，不难发现，在爬去静态网页时，scrapy可以轻松胜任，但是遇到动态网页时，我们别会束手无策。今天我给大家推荐一个可以配合scrapy使用的、用来爬取动态网页信息的工具——PhantomJS。这个工具包含在selenium中，前文我们使用过selenium爬取动态网页，它内部的PhantomJS工具则可以搭配s...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。