python爬取天眼查_求指教!! 爬取天眼查数据的时候,脚本运行一段时间,就会被天眼查的反爬取搞出来。怎么能躲过这个检测...

博主在尝试爬取天眼查数据时遇到反爬难题,已尝试延长请求间隔、使用随机时间间隔及代理IP,但仍然被封。最新更新提到即使使用代理IP,一段时间后账号仍会被封,疑与cookie有关,推测可能需要使用多个账号交替爬取。
摘要由CSDN通过智能技术生成

爬虫脚本执行一段时间以后,后续就会报错。

手动访问天眼查页面,发现页面提示确认是否是机器人。请大神指导怎么能躲过反爬取检测。

问题:

目前不太清楚天眼查是根据IP,还是根据cookie来做的反爬取限制。

尝试过的操作:

1、延长每次请求的时间,设置为3s中爬取一次,结果中途也断了。

2、将请求的时间设置为随机时间在0~5s之内,结果也中途断了。

-----------------------------------------分割线--------2019.02.08更新---------------------【代理池报错问题】-------------------------------------

r = s.get(city_url, headers=my_heads, proxies=params_file.proxies)

结果页面有报错:接口返回值为403

目前陷入了停滞状态,我尝试过去掉地址池,页面访问正常

所以有点尴尬,去掉地址池,爬一段时间,就要被封。用了地址池,程序跑不起来

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值