Ubuntu20.04 使用scrapy-splash爬取动态网页

root_dream

已于 2024-06-17 20:09:30 修改

阅读量493

点赞数 3

文章标签： scrapy

于 2024-06-16 20:33:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/root_dream/article/details/139724811

版权

我们要先安装splash服务，使用dock安装，如果dock没有安装，请参考我的上一篇博文：
按照官方文档：https://splash.readthedocs.io/en/stable/install.html
1.下载splash

 sudo docker pull scrapinghub/splash

2.安装scrapy，它是python的包，我们用包管理器安装：

pip3 install scrapy

3.创建scrapy项目，神似与django

 scrapy startproject baiduSpider

其中报错了

 cannot import name 'PseudoElement' from 'cssselect.parser'

是因为版本不兼容的原因，直接用下面的命令升级到新版尝试解决

 pip3 install --upgrade cssselect

最后，尝试成功，解决了依赖。

4.按照scrapy-splash模块，按照官方文档安装：
https://pypi.org/project/scrapy-splash/

 pip3 install scrapy-splash

在这里，我指定了pip3，怕弄混淆。

5.后台运行Splash服务

doc

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。