scrapy-splash初步学习

最新推荐文章于 2024-08-10 08:39:58 发布

real_Rickys

最新推荐文章于 2024-08-10 08:39:58 发布

阅读量785

点赞数

分类专栏： python爬虫文章标签： scrapy

本文链接：https://blog.csdn.net/real_Rickys/article/details/79901757

版权

本文介绍了如何在Windows环境下初步学习使用scrapy-splash爬取动态页面。过程中遇到了docker支持问题，包括docker对Windows的支持不理想、证书过期和网络问题等，最终通过重装docker解决。此外，还详细讲述了如何拉取docker镜像、启动和配置scrapy-splash，并在实践中应用scrapy-splash进行动态页面爬取。

摘要由CSDN通过智能技术生成

初步学习使用scrapy-splash

由于静态页面的局限性，学习动态页面的爬取也是必然的选择，这里就需要使用到splash。

步骤

1. 步骤1:安装docker  
2. 步骤2:安装splash  
3. 步骤3:没有splash时的淘宝页面爬取
4. 步骤4:使用splash的淘宝页面爬取测试

docker对win的支持问题

docker对win的支持并不好，docker ce似乎解决了这个问题，不过docker toolbox似乎问题还是比较多。在pull镜像的时候如果中途断网就可能会有证书过期的问题，在重新生成证书后docker-machine regenerate-certs似乎也不能解决问题。使用docker-machine ls中查看出来的问题有多种可能，且描述并不是非常清除。本人由于win10的网络防护的问题，导致tcp错误层出不穷，最后关闭防火墙重装了一次docker才解决。建议还是使用linux环境吧。