爬虫:知乎爬取评论2024
注:本文仅为兴趣爱好探究,请勿进行商业利用或非法研究,负责后果自负,与本文作者无关
一.总体概述
继上次爬取小红书评论之后,由于比赛需要,需要爬取更多平台的评论,这里盯上了知乎
同样的,爬取的数据包括了
评论者昵称,评论者id,性别,地区,评论内容,评论时间,评论等级
上效果图
二.爬虫过程
老规矩,打开对应页面f12
搜索想要爬取的关键词,点击展开评论,可以看到这个xhr请求返回了json格式的评论数据
翻页根据offset进行
https://www.zhihu.com/api/v4/comment_v5/answers/1459060852/root_comment?limit=10&offset=25370407_1053121143_0&order_by=score
翻页逻辑如下
爬取子评论逻辑
并发逻辑
获取offset值逻辑
数据处理
最后这里笔者发现了一个更快更好的接口,现在f12发现的接口会有反爬限制,需要每次爬取之后都要更改header头x_zse_93和96的值,这个接口只需要有个cookie即可
强烈推荐第二个老接口
三. readme
cookie必需!!
网页版知乎登录后,搜索想要关键词
在下列评论多的问题中进行点击评论或者直接点入该问题
对应的数据id字段即为必需填入脚本id字段
在代码14行进行填入即可,可填入多个
效果如下
原文链接
关注公众号 剑客古月的安全屋
回复 2024知乎爬虫获取源码