使用python/casperjs编写终极爬虫-客户端App的抓取

最新推荐文章于 2021-08-05 12:37:35 发布

AlexJia2046

最新推荐文章于 2021-08-05 12:37:35 发布

阅读量8.8k

点赞数

本文链接：https://blog.csdn.net/alexdream/article/details/10581559

版权

本文讲述了在移动互联网背景下，使用Python结合Selenium WebDriver和CasperJS解决复杂JavaScript网站爬取的问题。通过Selenium在有图形界面的环境中模拟浏览器行为，以及CasperJS在无GUI环境下进行Headless爬取，实现对Google Adwords关键字工具的自动化抓取，以节省成本。文章详细介绍了两种爬虫的安装、配置和使用方法。

摘要由CSDN通过智能技术生成

1.缘起

随着移动互联网的发展，现在写web和我三年前刚开始写爬虫的时候已经改变了太多。特别是在node以及javascript/ruby社区的努力下，以往“服务器端”做的事情都慢慢搬到了“浏览器”来实现，最极端的例子可能是meteor了，写web程序无需划分前端后端的时代已经到来了。。。

在这一方面，Google一向是最激进的。纵观Google目前的产品线，社交的Google Plus，网站分析的Google Analytics，Google目前赖以生存的Google Adwords等，如果想下载源码，用ElementTree来解析网页，那什么都得不到，因为Google的数据都是通过Ajax调用经过数据混淆处理的数据，然后用JavaScript进行解析渲染到页面上的。

本来这种事情也不算太多，忍一忍就行了，不过最近因业务需要，经常需要上Google的Keyword Tools来分析特定关键字的搜索量

图为关键字搜索的截图

图为Google经过混淆处理的Ajax返回结果。

要把这么费劲的事情自动化倒也不难，因为Google也提供了API来做，Adwords项目的TargetingIdeaService就是来做这个的，问题是Google的API调用需要花钱，而如果能用爬虫技术来爬取这个结果，就能省去不必要的额外开销。

2. Selenium WebDriver

由于要解析执行复杂的JavaScript，必须有一个Full Stack的浏览器JavaScript环境，这种环境三年前的话，可能只能诉诸于于selenium，selenium是一款多语言的浏览器Driver，它最大的优点在于，提供了从命令行统一操控多种不同浏览器的方法，这极大地方便了web产品的兼容性自动化测试。

2.1 在没有图形界面的服务器上安装和使用Selenium

安装selenium非常简单，pip install selenium 即可，但是要让firefox/chrome工作，没有图形界面的话，还是要费一番功夫的。

推荐的做法是

apt-get install xvfb
Xvfb :99 -ac -screen 0 1024x768x8&amp;
export DISPLAY=:99

Selenium的安装和配置在此就不多说了，值得注意的是，如果是Ubuntu用户，并且要使用Chrome的话，必须额外下载一个chromedriver，并且把安装的chromium-browser链接到/usr/bin/google-chrome，否则将无法运行。

2.2 爬取Keywords

最低0.47元/天解锁文章

AlexJia2046

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫