一、安装python及scrapy
- python安装
- Python 环境搭建
- 命令:
pip install scrapy
二、安装mysql
- 安装mysql
- 安装图形界面管理工具 Front
三、安装splash
- 安装docker
下载地址:Docker Community Edition for Windows
参考:记Windows10下安装Docker的步骤
-
更改镜像源地址:https://registry.docker-cn.com
-
下载splash
输入指令docker pull scrapinghub/splash
下载 -
python库的 scrapy-splash
输入pip install scrapy-splash
-
开启splash端口
输入docker run -p 8050:8050 scrapinghub/splash
-
验证splash运行情况
浏览器输入http://localhost:8050
ip设置
https://my.oschina.net/RanboSpider/blog/1785626
(一)'twisted.enterprise’报错
- 错误:
ModuleNotFoundError: No module named 'twisted.enterprise'
- 怀疑1:‘twisted’ 或 ‘twisted.enterprise’ 库没装
(将twisted和scrapy卸载后,用conda重新安装,就不报错了)
(二)抓取中途自动结束
- 错误:抓取当当时,抓到一半自动结束,已知当当不会封IP,什么原因?
- 怀疑1:meta传参数时,把 i 放进去了
(删除meta,报错) - 怀疑2:header错了
(每个request加入header,报错) - 怀疑3:翻页方式错了
(每一本书都用for翻页,不出错)