爬虫脚本执行一段时间以后,后续就会报错。
手动访问天眼查页面,发现页面提示确认是否是机器人。请大神指导怎么能躲过反爬取检测。
问题:
目前不太清楚天眼查是根据IP,还是根据cookie来做的反爬取限制。
尝试过的操作:
1、延长每次请求的时间,设置为3s中爬取一次,结果中途也断了。
2、将请求的时间设置为随机时间在0~5s之内,结果也中途断了。
-----------------------------------------分割线--------2019.02.08更新---------------------【代理池报错问题】-------------------------------------
r = s.get(city_url, headers=my_heads, proxies=params_file.proxies)
结果页面有报错:接口返回值为403
目前陷入了停滞状态,我尝试过去掉地址池,页面访问正常
所以有点尴尬,去掉地址池,爬一段时间,就要被封。用了地址池,程序跑不起来