python爬虫实战(10)--获取本站热榜

最新推荐文章于 2024-10-13 19:04:04 发布

置顶 ChrisitineTX

最新推荐文章于 2024-10-13 19:04:04 发布

阅读量572

点赞数 9

分类专栏： python 爬虫文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_34252622/article/details/135524892

版权

爬虫同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

python

10 篇文章 0 订阅

订阅专栏

本文介绍了如何通过Python的requests和pandas库从CSDN网站获取热榜博客数据，包括处理请求头、解析JSON、存储为DataFrame并导出为Excel文件的过程。

摘要由CSDN通过智能技术生成

1. 需要的类库

import requests
import pandas as pd

2. 分析

通过分析，本站的热榜数据可以直接通过接口拿到，故不需要解析标签，请求热榜数据接口

    url = "https://xxxt/xxxx/web/blog/hot-rank?page=0&pageSize=25&type=" #本站地址

直接请求解析会有点问题，数据无法解析，加上请求头

headers = {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Sec-Ch-Ua": "\"Chromium\";v=\"116\", \"Not)A;Brand\";v=\"24\", \"Google Chrome\";v=\"116\"",
    "Sec-Ch-Ua-Mobile": "?1",
    "Sec-Ch-Ua-Platform": "\"Android\"",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-site",
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Mobile Safari/537.36"
}

完整请求代码

    # 发送HTTP请求
    r = requests.get(url, headers=headers)

    # 解析JSON数据
    data = r.json()

    # 提取所需信息
    articles = []
    for item in data["data"]:
        title = item["articleTitle"]
        link = item["articleDetailUrl"]
        rank = item["hotRankScore"]
        likes = item["favorCount"]
        comments = item["commentCount"]
        views = item["viewCount"]
        author = item["nickName"]
        time = item["period"]

        articles.append({
            "标题": title,
            "链接": link,
            "热度分": rank,
            "点赞数": likes,
            "评论数": comments,
            "查看数": views,
            "作者": author,
            "时间": time
        })

3.导出Excel

    # 创建DataFrame
    df = pd.DataFrame(articles)

    # 将DataFrame保存为Excel文件
    df.to_excel("csdn_top.xlsx", index=False)

4. 成果展示

在这里插入图片描述

ChrisitineTX

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录