30行代码完成对知乎热榜的抓取!

本文介绍了如何使用Python快速抓取知乎热榜信息,包括问题链接、回答数量及内容。通过引入requests、BeautifulSoup和正则表达式库,实现对网页的请求、解析和数据提取。程序简洁易懂,适合初学者学习爬虫基础知识。
摘要由CSDN通过智能技术生成

想必知乎这个网站大家都很熟悉吧,每天上午可能都会摸摸鱼来看看热榜上又有哪些热点。但是要是明目张胆的看网站时突然发现背后站着一个领导,那时可能就会很尴尬了,哈哈!

今天我就教大家如何快速而又优雅的获取知乎热榜上的信息,只需要30行代码即可完成。话不多说,咱们直接开始!

首先导入我们需要的Python库以及定义我们的headers,注意这里headers里面的cookie要替换为自己网站上的cookie值哦!

import requests
from bs4 import BeautifulSoup
import json
import re

headers = {'X-Requested-With': 'XMLHttpRequest','User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
           'cookie': ''} #cookie值替换为自己网站上的cookie值

之后来获取关于知乎热榜上的所有问题链接:

url = 'https://www.zhihu.com/hot'
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
all_a = soup.select('div.HotItem-content a')

最后对每个问题链接进行请求,并获取该问题下的所有回答:

for a in all_a:
    link = a['href']
    print(link + a['title'])
    question_id = link.replace('https://www.zhihu.com/question/', '')
    res2 = requests.get(link, headers=headers)
    soup2 = BeautifulSoup(res2.text, 'html.parser')
    counts_content = soup2.select('h4.List-headerText')[0].get_text()
    counts_re = re.search('\d+\.?\d*', counts_content)
    counts = int(counts_re.group())
    print('共有{}个回答'.format(counts))
    for i in range(0, counts, 20):
        href = 'https://www.zhihu.com/api/v4/questions/{}/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cattachment%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Cis_labeled%2Cpaid_info%2Cpaid_info_content%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_recognized%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%2A%5D.topics%3Bdata%5B%2A%5D.settings.table_of_content.enabled&limit=20&offset={}&platform=desktop&sort_by=default'.format(question_id, str(i))
        print(href)
        res3 = requests.get(href, headers=headers)
        datas = json.loads(res3.text).get('data')
        for data in datas:
            content = data.get('content')
            soup = BeautifulSoup(content, 'html.parser')
            print(soup.text)

关于知乎热榜的抓取就完成啦,抓取结果大致如下,数量很多,这里只展示前面一部分:

怎么样,是不是还是挺简单的!当然如果你还想获取其它信息的话也可以针对程序进行修改来获取你想要的信息,我们要学会举一反三。

完整程序如下:

import requests
from bs4 import BeautifulSoup
import json
import re

headers = {'X-Requested-With': 'XMLHttpRequest','User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
           'cookie': ''} #cookie值替换为自己网站上的cookie值
url = 'https://www.zhihu.com/hot'
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
all_a = soup.select('div.HotItem-content a')
for a in all_a:
    link = a['href']
    print(link + a['title'])
    question_id = link.replace('https://www.zhihu.com/question/', '')
    res2 = requests.get(link, headers=headers)
    soup2 = BeautifulSoup(res2.text, 'html.parser')
    counts_content = soup2.select('h4.List-headerText')[0].get_text()
    counts_re = re.search('\d+\.?\d*', counts_content)
    counts = int(counts_re.group())
    print('共有{}个回答'.format(counts))
    for i in range(0, counts, 20):
        href = 'https://www.zhihu.com/api/v4/questions/{}/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cattachment%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Cis_labeled%2Cpaid_info%2Cpaid_info_content%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_recognized%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%2A%5D.topics%3Bdata%5B%2A%5D.settings.table_of_content.enabled&limit=20&offset={}&platform=desktop&sort_by=default'.format(question_id, str(i))
        print(href)
        res3 = requests.get(href, headers=headers)
        datas = json.loads(res3.text).get('data')
        for data in datas:
            content = data.get('content')
            soup = BeautifulSoup(content, 'html.parser')
            print(soup.text)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来日正长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值