爬虫遇到连接中断问题,误以为是反爬

在抓取炉石传说卡牌数据时,遇到连接中断的问题,最初误认为是反爬策略。通过研究,尝试了更换user-agent、设置访问间隔、调整keep-alive等方法。最终发现问题是网页接口出现连接中断,而图片链接正常。通过为网页接口设置失败重连,成功解决问题,排除了反爬的可能性。
摘要由CSDN通过智能技术生成

基友们在玩炉石传说,提出了一个想法

这个项目的第一步就是要到炉石传说卡牌工具页抓取数据

利用爬虫抓数据,一般我就直接上 selenium+phantomjs了。后来基友说这个网页是使用了AJAX来翻页,可以看看XHR。然后查了一下,资料点击这里,就开始使用 requests 直接抓数据。

在抓取过程中,会经常遇到 ConnectionError: ('Connection aborted.', error(10054, ''))

甚是蛋疼。。。

查询资料,看到了一些看似可行的方案:
1. head中有一个user-agent每次都换不同的模拟代理
2. 测试最大访问时间短,每秒多少次请求会出现中断,然后sleep(200)毫秒
3. 每次请求中断上一次链接,keep-live=false (没搞懂这里,查了一下资料
4. 不然就是换IP访问

经过简单的测试:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值