Python爬虫实战一：抓取知乎问题下所有回答

最新推荐文章于 2025-05-17 15:14:43 发布

TEDxPY

最新推荐文章于 2025-05-17 15:14:43 发布

阅读量7k

点赞数 15

分类专栏： python学习编码素材文章标签： python 爬虫 charles 知乎回答

本文链接：https://blog.csdn.net/weixin_40796925/article/details/120314374

版权

python学习同时被 2 个专栏收录

78 篇文章

订阅专栏

编码素材

8 篇文章

订阅专栏

代码是最近(2021.09)新写的~

需求

任务需求：抓取知乎问题下所有回答，包括其作者、作者粉丝数、回答内容、时间、回答的评论数、回答赞同数以及该回答的链接。

分析

以最近比较引人关注的"大厂间要相互解除屏蔽链接问题"为例，想要拿到回答的相关数据，可以在Chrome浏览器下按F12来分析请求；但借助Charles抓包工具可以更直观地获取相关字段：
抓包测试截图
注意我标注的 Query String 参数中 limit 5 表示每次请求返回5条回答，经测试最多可以改成20；offset 表示从第几个回答开始；

而返回的结果是 Json 格式的，每一条回答包含的信息足够多，我们只要筛选想要抓取的字段记录保存即可。

需要注意的是 content 字段中返回的是回答内容，但它格式是带了网页标签的，经过搜索我选用了 HTMLParser来解析，就免得自己再手动处理了。

代码

import requests,json
import datetime
import pandas as pd
from selectolax.parser import HTMLParser

url = 'https://www.zhihu.com/api/v4/questions/486212129/answers'
headers = {
    'Host':'www.zhihu.com',
    'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36',
    'referer':'https://www.zhihu.com/question/486212129'
}
df = pd.DataFrame(columns=('author','fans_count','content','created_time','updated_time','comment_count','voteup_count','url'))

def crawler(start):
    print(start)
    global df
    data= {
        'include':'data[*].is_normal,admin_closed_comment,reward_info,is_collapsed,annotation_action,annotation_detail,collapse_reason,is_sticky,collapsed_by,suggest_edit,comment_count,can_comment,content,editable_content,attachment,voteup_count,reshipment_settings,comment_permission,created_time,updated_time,review_info,relevant_info,question,excerpt,is_labeled,paid_info,paid_info_content,relationship.is_authorized,is_author,voting,is_thanked,is_nothelp,is_recognized;data[*].mark_infos[*].url;data[*].author.follower_count,vip_info,badge[*].topics;data[*].settings.table_of_content.enabled',
        'offset':start,
        'limit':20,
        'sort_by':'default',
        'platform':'desktop'
    }

    #将携带的参数传给params
    r = requests.get(url, params=data,headers=headers)
    res = json.loads(r.text)
    if res['data']:
        for answer in res['data']:
            author = answer['author']['name']
            fans = answer['author']['follower_count']
            content = HTMLParser(answer['content']).text()
            #content = answer['content']
            created_time = datetime.datetime.fromtimestamp(answer['created_time'])
            updated_time = datetime.datetime.fromtimestamp(answer['updated_time'])
            comment = answer['comment_count']
            voteup = answer['voteup_count']
            link = answer['url']

            row = {
                'author':[author],
                'fans_count':[fans],
                'content':[content],
                'created_time':[created_time],
                'updated_time':[updated_time],
                'comment_count':[comment],
                'voteup_count':[voteup],
                'url':[link]
            }
            df = df.append(pd.DataFrame(row),ignore_index=True)

        if len(res['data'])==20:
            crawler(start+20)
    else:
        print(res)
        
crawler(0)
df.to_csv(f'result_{datetime.datetime.now().strftime("%Y-%m-%d")}.csv',index=False)
print("done~")