从爬取微博中搜索的热门事件到数据分析处理全过程（一）

最新推荐文章于 2025-03-31 10:56:03 发布

数据分析_MRxiao

最新推荐文章于 2025-03-31 10:56:03 发布

阅读量1.6w

点赞数 8

分类专栏：数据分析

本文链接：https://blog.csdn.net/qq_36321922/article/details/79475580

版权

本文介绍了作者爬取新浪微博中关于医患冲突的微博，目的是进行舆情分析。详细阐述了爬取对象、原因以及爬虫步骤，包括请求页面、解析页面和存入数据库。后续将简述数据提取和清理工作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从爬取微博中搜索的热门事件到数据分析处理全过程（一）

本文主要阐述了作者爬取新浪微博中搜索关键词搜到的微博，不涉及技术上的讲解，主要是大体思路，因为本人比较懒，可能第二部分或遥遥无期，但是还是希望大家多多支持：

一、爬取对象及缘由

我爬取的主要是关于医患冲突的微博，初衷是为了分析医患冲突的舆情。想要爬取的对象有用户名、正文、时间、转发数、点赞数、还有评论数。爬取正文是可以做情感分析或者切词做词频分析（云图）。而用户名可以用来统计什么官方报社或者官网对这个关注最高，可以做个柱状图。同时转发数、点赞数、还有评论数可以配合时间做一定时间内的数量分析或者时序折线图。

二、爬虫步骤

1.请求页面

第一当然是进入我们亲爱的微博移动端https://m.weibo.cn/（不要问我为什么是移动端，因为简单哈，小菜真得只会这个。）搜索关键字并右键点开审查元素。
这里写图片描述
点开右边的network选项，在里面选中xhr，并滑动页面的滚动条加载出新页面，此时会出现一个表单，点击该表单。
接下来就是我们最喜欢的填代码时刻了。

from urllib.parse import urlencode
import requests
from pyquery import PyQuery as pq
import time
from pymongo import MongoClient

base_url = 'https://m.weibo.cn/api/container/getIndex?' 

headers = {
    'Host': 'm.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/2830678474',

最低0.47元/天解锁文章