scrapy-splash是为了解决 scrapy不能够解析JavaScript加载的网页这一问题而存在的。
splash作为js渲染服务,是基于Twisted和QT开发的轻量浏览器引擎。
scrapy-splash模块主要使用了Splash。
也就是说,splash作为一个中间代理将结果返回。
splash官方文档https://splash.readthedocs.io/en/stable/
Splash一般都是运行在Linux环境下,windows下docker容易出错。
下载Splash,一般都是通过docker下载。关于docker是什么,感兴趣的可以搜一下。。。
首先下载 docker。
- 1 更新系统软件。
sudo apt-get update
- 2 安装依赖包。
- sudo apt-get install \
apt-transport-https \
ca-certificates \
curl \
software-properties-common
- 3 添加官方密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
- 4 添加仓库
sudo add-apt-repository \
"deb [arch=amd64] https://download.docker.com/linux/ubuntu \
$(lsb_release -cs) \