【微博简易爬虫】Python获取指定微博用户的发布文本

本文介绍了如何在心理学研究背景下,通过Python爬取指定微博用户的发布文本。首先讲解了项目目的,然后详细阐述了从昵称获取UID、发送请求获取微博内容及控制请求频率的爬虫流程。最后,作者提到文本数据的后续处理和特征提取,并鼓励读者对代码进行优化。
摘要由CSDN通过智能技术生成

一、背景&目的

       心理学专业在读,又一心做一些和数据科学相关的项目,于是选择了基于微博的焦虑和抑郁识别作为毕设项目,开始从数据获取到处理建模到调参的全过程。院里和指导老师都非常在乎数据隐私问题,所以不能贸然爬虫,需要提前获取用户的知情同意才可以定向爬取目标用户的微博。在此期间也掉了不少坑,也想把经验分享给大家,所以在此整理了一下前期获取数据的过程。

 

二、爬虫流程

        心理学临床研究中,对于这焦虑和抑郁的初步识别是通过抑郁自评量表(SDS)、焦虑自评量表(SAS)等自评量表进行的。借助问卷星广撒问卷,获取用户的微博名称和对应的量表分数,并根据实际的得分情况将用户分为3*3不同水平的用户。这部分的数据处理还是比较简单的,从问卷星导出包含得分的xlxs文件直接在excel中编写规则即,用数据透表做一个分类即可;也可以用python导入转成DataFrame更自由地做一些计算,在此便不再详述这一过程,默认已经获得了对应微博用户的昵称和对应的分类标签。

0. 调包

import pandas as pd 
import requests as re
import json
import time
import random

1. UID获取

        由于UID才是微博用户的唯一标识,但我担心用户找不到自己的ID或嫌麻烦不愿意参加实验,所以在通过问卷星获取用户的问卷分数时只要求用户留下了自己的微博名称,需要一步通过昵称找UID的步骤,在网上找到了一个可以直接通过昵称返回UID的接口,调取代码如下:<

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值