爬虫:爬取知乎评论2024

爬虫:知乎爬取评论2024

注:本文仅为兴趣爱好探究,请勿进行商业利用或非法研究,负责后果自负,与本文作者无关

一.总体概述

继上次爬取小红书评论之后,由于比赛需要,需要爬取更多平台的评论,这里盯上了知乎

同样的,爬取的数据包括了

评论者昵称,评论者id,性别,地区,评论内容,评论时间,评论等级

上效果图

二.爬虫过程

老规矩,打开对应页面f12

image-20240228212040502

搜索想要爬取的关键词,点击展开评论,可以看到这个xhr请求返回了json格式的评论数据

image-20240228212129685

翻页根据offset进行

https://www.zhihu.com/api/v4/comment_v5/answers/1459060852/root_comment?limit=10&offset=25370407_1053121143_0&order_by=score

翻页逻辑如下

image-20240228212337159

爬取子评论逻辑

image-20240228212403321

并发逻辑

image-20240228212437730

获取offset值逻辑

image-20240228212505225

数据处理

image-20240228212700997

最后这里笔者发现了一个更快更好的接口,现在f12发现的接口会有反爬限制,需要每次爬取之后都要更改header头x_zse_93和96的值,这个接口只需要有个cookie即可

image-20240228183129549

强烈推荐第二个老接口

三. readme

cookie必需!!

网页版知乎登录后,搜索想要关键词

image-20240228212745448

在下列评论多的问题中进行点击评论或者直接点入该问题

image-20240228212841553

对应的数据id字段即为必需填入脚本id字段

image-20240228213058857

image-20240228212940076

image-20240228212951976

在代码14行进行填入即可,可填入多个

效果如下

image-20240228213014346

原文链接

爬虫: 知乎爬取评论2024

关注公众号 剑客古月的安全屋

回复 2024知乎爬虫获取源码

  • 11
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值