【微博简易爬虫】Python获取指定微博用户的发布文本

最新推荐文章于 2025-02-28 15:45:42 发布

李橡树

最新推荐文章于 2025-02-28 15:45:42 发布

阅读量1.9k

点赞数 2

分类专栏：学习

本文链接：https://blog.csdn.net/weixin_42507051/article/details/104905336

版权

本文介绍了如何在心理学研究背景下，通过Python爬取指定微博用户的发布文本。首先讲解了项目目的，然后详细阐述了从昵称获取UID、发送请求获取微博内容及控制请求频率的爬虫流程。最后，作者提到文本数据的后续处理和特征提取，并鼓励读者对代码进行优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、背景&目的

心理学专业在读，又一心做一些和数据科学相关的项目，于是选择了基于微博的焦虑和抑郁识别作为毕设项目，开始从数据获取到处理建模到调参的全过程。院里和指导老师都非常在乎数据隐私问题，所以不能贸然爬虫，需要提前获取用户的知情同意才可以定向爬取目标用户的微博。在此期间也掉了不少坑，也想把经验分享给大家，所以在此整理了一下前期获取数据的过程。

二、爬虫流程

心理学临床研究中，对于这焦虑和抑郁的初步识别是通过抑郁自评量表(SDS)、焦虑自评量表（SAS）等自评量表进行的。借助问卷星广撒问卷，获取用户的微博名称和对应的量表分数，并根据实际的得分情况将用户分为3*3不同水平的用户。这部分的数据处理还是比较简单的，从问卷星导出包含得分的xlxs文件直接在excel中编写规则即，用数据透表做一个分类即可；也可以用python导入转成DataFrame更自由地做一些计算，在此便不再详述这一过程，默认已经获得了对应微博用户的昵称和对应的分类标签。

0. 调包

import pandas as pd 
import requests as re
import json
import time
import random

1. UID获取

由于UID才是微博用户的唯一标识，但我担心用户找不到自己的ID或嫌麻烦不愿意参加实验，所以在通过问卷星获取用户的问卷分数时只要求用户留下了自己的微博名称，需要一步通过昵称找UID的步骤，在网上找到了一个可以直接通过昵称返回UID的接口，调取代码如下：<

最低0.47元/天解锁文章