requests爬取知乎问题全部1911个回答

博客作者解决了之前爬取知乎回答时因不理解offset值导致的重复问题。通过调整offset增量和limit值,成功获取到目标问题的1911个回答。当offset达到1900时,返回答案数量减少,标志着爬取结束。
摘要由CSDN通过智能技术生成

我在上一篇博客的代码基础上做了些优化和修改
上次的问题主要是网页上面offset的值我没有理解,导致爬取下来的答案都是那重复的几个
这次弄明白了,比如说我这个问题下面有1911个回答,如果offset=0的话,从第一个回答开始,网站会给你返回接下来的limit数量的回答,如果offset大于1911,那么不会有回答,我设置的limit为20,那么我只需要使offset的值20递增就可以了
在这里插入图片描述
至于这里的判断条件就是如果返回来的列表长度小于20,也就是说当offset递增到1900的时候,只会返回11个答案,我特意测试了一下
在这里插入图片描述
可以看到我这里的值是1908,只返回了3个答案
就可以了实际运行起来,得出1911个答案,完美
在这里插入图片描述
打开记事本查看,拉到最后,答案是对上的
在这里插入图片描述
这次数据太多了就没有保存至数据库里面

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值