scrapy实战:scrapy-splash抓取动态数据
我们知道,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面直接使用scrapy的Request请求都无法获得,解决的方法就是使用scrapy-splash。
scrapy-splash加载js数据是基于Splash来实现的,Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,Splash是用Python实现的,同时使用Twisted和QT,而我们使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后,拿到的渲染之后的网页源代码。
docker安装
由于我这边使用的是MAC,具体安装过程略过,请参见这里
拉取scrapinghub/splash镜像
docker pull scrapinghub/splash
启动Splash
docker run -p 8050:8050 scrapinghub/splash
启动结果如下: