解释:Too Many Requests (太多请求),即访问次数过于频繁,服务器提醒该降速了
解决:
方法一:
使用ip代理池可以解决,不过如果有些代理ip的质量不高,则只有部分ip会生效,过程中还会报错:TunnelError,以及仍然会有很多response_ignored_status_count/429
方法二:time.sleep()
重写或直接在中间件的函数 process_response()下添加下列代码:
即被拦一次暂停等一会儿在访问,模拟用户访问,这个方法解决了我的问题,不过因为要休眠的原因,爬取过程时间真的有亿点长。。。
方法三:分布式爬虫