微博超话内容爬取技巧/要点

pzhongli

已于 2024-06-05 15:54:31 修改

阅读量1.3k

点赞数 5

分类专栏：爬虫数据分析文章标签： python 开发语言

于 2024-04-12 13:59:58 首次发布

本文链接：https://blog.csdn.net/pzhongli/article/details/137589314

版权

爬虫同时被 2 个专栏收录

2 篇文章

订阅专栏

数据分析

2 篇文章

订阅专栏

本文介绍了如何使用微博爬虫技术，包括选择合适的网页源（weibo.com和m.weibo.cn），设置headers和cookie，观察网页元素变化以调试代码，以及如何抓取并解析数据，特别强调了参数调整对获取信息的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考博客：微博数据采集，微博爬虫，微博网页解析，完整代码（主体内容+评论内容）_微博数据爬虫-CSDN博客

注意微博域名！！

微博有好几个网页域名，这里我只用到了两个就简单介绍两个，分别是：weibo.com和m.weibo.cn

这两个的元素布局方式不一样，展示的信息也不一样

这里我用weibo.com爬取用户主页，用m.weibo.cn爬取超话推文

具体情况具体分析最好两个都打开看看最符合自己要求的是哪个，看好了再爬！！！

1.找到要爬取的网页

去到超话--开发者模式--网络--选择HXR过滤--找到包含所有信息的文件（个人经验选择getIndex?extparam=......这样格式的）--预览--检查是否有我们需要的

可以点进网址URL查看具体元素，便于搜索（ctrl+f）

确认后，复制URL

2.设置 headers和cookie

headers = {
        'Cookie':'',
        'authority': 'm.weibo.cn',
        'Cache-Control':'',
        'accept': '',
        'accept-language': '',
        'Referer':'',
        'sec-ch-ua': '',
        'sec-ch-ua-mobile': '',
        'sec-ch-ua-platform': '',
        'sec-fetch-dest': '',
        'sec-fetch-mode': '',
        'sec-fetch-site': '',
        'sec-fetch-user': '',
        'upgrade-insecure-requests': '',
        'user-agent': '',
    }

这里给出的代码参数可能不完全，有些没有提及，如果能爬出来就不用管，页面响应失败就增加请求头参数

3.根据需求观察网页变化调试代码

根据需求点击网页，观察页面变化，一步步调试，这个阶段最花时间！！！

这一步的重点是观察负载里面的参数变化

比如，按最新评论或者热门来分类

再点击热门

可以观察到是containerid参数的后缀在变化

4.获取网页

注意，获取后的文件格式！！如果是按照我的步骤来的，获取后是json格式

    response = requests.get(url=url, headers=headers).json()
    # print(response)
    card_lists = response.get('data').get('cards')[-1].get('card_group')
    # 字典才有get方法，列表要[0]之后再用get（前提是列表的值为字典）

字典才有get方法，列表要[0]之后再用get（前提是列表的值为字典）