scrapy常见问题和技巧

  • 爬虫启动时项目中的所有python脚本都会执行,因此不需要执行的代码要放在函数或类里。

  • scrapyd-deploy安装完成后执行显示不存在:
    scrapyd-deploy在python的script目录下,需要新建scrapyd-deploy.bat并写入

    @echo off
    python scrapyd-deploy路径 %*

  • scrapyd部署错误:
    安装twisted==18.9

  • cookie:
    COOKIES_ENABLED=True时requests中的cookies参数生效,爬虫中断cookie丢失;=false时headers中的Cookie生效。

  • 使用ss代理:
    开启ss软件,代理127.0.0.1的1080端口,http和https都填这个端口

  • 要处理404请求,可以在spider中加上handle_httpstatus_list=[404]

  • CLOSESPIDER_TIMEOUT时间到达后,程序不会等回调函数中的Request发送到redis后再停止,因此需要在爬虫中不断回调的请求不能设CLOSESPIDER_TIMEOUT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值