初步学习使用scrapy-splash
由于静态页面的局限性,学习动态页面的爬取也是必然的选择,这里就需要使用到splash。
步骤
1. 步骤1:安装docker
2. 步骤2:安装splash
3. 步骤3:没有splash时的淘宝页面爬取
4. 步骤4:使用splash的淘宝页面爬取测试
docker对win的支持问题
docker对win的支持并不好,docker ce似乎解决了这个问题,不过docker toolbox似乎问题还是比较多。在pull镜像的时候如果中途断网就可能会有证书过期的问题,在重新生成证书后docker-machine regenerate-certs似乎也不能解决问题。使用docker-machine ls中查看出来的问题有多种可能,且描述并不是非常清除。本人由于win10的网络防护的问题,导致tcp错误层出不穷,最后关闭防火墙重装了一次docker才解决。建议还是使用linux环境吧。
docker的镜像拉取速度
对于中国网络访问海外流量的限制,docker已经做出了很好的支持,如这个splash可以采用如下代码快速拉取:docker pull registry.docker-cn.com/scrapinghub/splash
步骤1
下载docker可去如下页面 https://docs.docker.com/toolbox/overview/ ,注意,可下载的最新的版本是