scrapy-splash初步学习

本文介绍了如何在Windows环境下初步学习使用scrapy-splash爬取动态页面。过程中遇到了docker支持问题,包括docker对Windows的支持不理想、证书过期和网络问题等,最终通过重装docker解决。此外,还详细讲述了如何拉取docker镜像、启动和配置scrapy-splash,并在实践中应用scrapy-splash进行动态页面爬取。
摘要由CSDN通过智能技术生成

初步学习使用scrapy-splash

 由于静态页面的局限性,学习动态页面的爬取也是必然的选择,这里就需要使用到splash。

步骤
1. 步骤1:安装docker  
2. 步骤2:安装splash  
3. 步骤3:没有splash时的淘宝页面爬取
4. 步骤4:使用splash的淘宝页面爬取测试  
docker对win的支持问题

 docker对win的支持并不好,docker ce似乎解决了这个问题,不过docker toolbox似乎问题还是比较多。在pull镜像的时候如果中途断网就可能会有证书过期的问题,在重新生成证书后docker-machine regenerate-certs似乎也不能解决问题。使用docker-machine ls中查看出来的问题有多种可能,且描述并不是非常清除。本人由于win10的网络防护的问题,导致tcp错误层出不穷,最后关闭防火墙重装了一次docker才解决。建议还是使用linux环境吧。

docker的镜像拉取速度

 对于中国网络访问海外流量的限制,docker已经做出了很好的支持,如这个splash可以采用如下代码快速拉取:docker pull registry.docker-cn.com/scrapinghub/splash

步骤1

 下载docker可去如下页面 https://docs.docker.com/toolbox/overview/ ,注意,可下载的最新的版本是

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值