-
爬虫启动时项目中的所有python脚本都会执行,因此不需要执行的代码要放在函数或类里。
-
scrapyd-deploy安装完成后执行显示不存在:
scrapyd-deploy在python的script目录下,需要新建scrapyd-deploy.bat并写入@echo off
python scrapyd-deploy路径 %* -
scrapyd部署错误:
安装twisted==18.9 -
cookie:
COOKIES_ENABLED=True时requests中的cookies参数生效,爬虫中断cookie丢失;=false时headers中的Cookie生效。 -
使用ss代理:
开启ss软件,代理127.0.0.1的1080端口,http和https都填这个端口 -
要处理404请求,可以在spider中加上
handle_httpstatus_list=[404]
-
CLOSESPIDER_TIMEOUT
时间到达后,程序不会等回调函数中的Request发送到redis后再停止,因此需要在爬虫中不断回调的请求不能设CLOSESPIDER_TIMEOUT
scrapy常见问题和技巧
最新推荐文章于 2024-04-08 21:42:39 发布