前言
Scrapy爬虫(一)——你的第一个Scrapy爬虫
Scrapy爬虫(二)——自定义Item和代理访问的爬虫
如果理解清楚以上这两篇博客,运用scrapy框架爬取一般的网页基本不是什么难题了。可是有些时候我们会遇到动态网页,向下滚动加载的网页便是一种很常见的动态网页,要解决这种网页,我们需要采用phantomjs+scrapy的方法。
Phantomjs的安装
简单地说Phantomjs就是一个没有GUI的浏览器,但通过javascript,它可以实现所有我们在网页上的操作。对比起selenium每次都需要调用浏览器,Phantomjs显然更适合嵌入到scrapy框架当中
在Ubuntu下安装phantomjs不能使用!!apt-get install phantomjs!!!
使用这个方法安装的phantomjs并不完整,在使用的时候会导致许多错误。正确的安装方式应该是
sudo npm install phantomjs -g
同时还需要安装selenium
su