【数据分析】快速获取微博用户数据，图片，视频

最新推荐文章于 2025-02-28 15:45:42 发布

网络毒刘

最新推荐文章于 2025-02-28 15:45:42 发布

阅读量4.2k

点赞数 3

分类专栏：数据分析深度学习 Python

本文链接：https://blog.csdn.net/qq_41856814/article/details/103931080

版权

该博客介绍了如何使用Python脚本来爬取新浪微博用户数据，包括用户信息、微博正文、图片和视频。用户信息包括昵称、粉丝数、关注数等，微博信息包括发布时间、点赞数、评论数等。脚本支持CSV、JSON、MySQL和MongoDB等多种输出格式，以及下载微博中的图片和视频。此外，博客还提供了如何获取和验证cookie的指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

功能
输出
实例
运行环境
使用说明
如何获取user_id
添加cookie与不添加cookie的区别（可选）
如何获取cookie（可选）
如何检测cookie是否有效（可选）

功能

连续爬取一个或多个新浪微博用户（如Dear-迪丽热巴、郭碧婷）的数据，并将结果信息写入文件。写入信息几乎包括了用户微博的所有数据，主要有用户信息和微博信息两大类，前者包含用户昵称、关注数、粉丝数、微博数等等；后者包含微博正文、发布时间、发布工具、评论数等等，因为内容太多，这里不再赘述，详细内容见输出部分。具体的写入文件类型如下：

写入csv文件（默认）
写入json文件（可选）
写入MySQL数据库（可选）
写入MongoDB数据库（可选）
下载用户原创微博中的原始图片（可选）
下载用户转发微博中的原始图片（可选）
下载用户原创微博中的视频（可选）
下载用户转发微博中的视频（可选）
下载用户原创微博Live Photo中的视频（可选）
下载用户转发微博Live Photo中的视频（可选）

输出

用户信息

用户id：微博用户id，如"1669879400"
用户昵称：微博用户昵称，如"Dear-迪丽热巴"
性别：微博用户性别
微博数：用户的全部微博数（转发微博+原创微博）
粉丝数：用户的粉丝数
关注数：用户关注的微博数量
简介：用户简介
主页地址：微博移动版主页url，如https://m.weibo.cn/u/1669879400?uid=1669879400&luicode=10000011&lfid=1005051669879400
头像url：用户头像url
高清头像url：用户高清头像url
微博等级：用户微博等级
会员等级：微博会员用户等级，普通用户该等级为0
是否认证：用户是否认证，为布尔类型
认证类型：用户认证类型，如个人认证、企业认证、政府认证等
认证信息：为认证用户特有，用户信息栏显示的认证信息

微博信息

微博id：微博的id，为一串数字形式
微博bid：微博的bid，与cookie版中的微博id是同一个值
微博内容：微博正文
原始图片url：原创微博图片和转发微博转发理由中图片的url，若某条微博存在多张图片，则每个url以英文逗号分隔，若没有图片则值为’’
视频url: 微博中的视频url和Live Photo中的视频url，若某条微博存在多个视频，则每个url以英文分号分隔，若没有视频则值为’’
微博发布位置：位置微博中的发布位置
微博发布时间：微博发布时的时间，精确到天
点赞数：微博被赞的数量
转发数：微博被转发的数量
评论数：微博被评论的数量
微博发布工具：微博的发布工具，如iPhone客户端、HUAWEI Mate 20 Pro等，若没有则值为’’
话题：微博话题，即两个#中的内容，若存在多个话题，每个url以英文逗号分隔，若没有则值为’’
@用户：微博@的用户，若存在多个@用户，每个url以英文逗号分隔，若没有则值为’’
原始微博：为转发微博所特有，是转发微博中那条被转发的微博，存储为字典形式，包含了上述微博信息中的所有内容，如微博id、微博内容等等
结果文件：保存在当前目录weibo文件夹下以用户昵称为名的文件夹里，名字为"user_id.csv"形式
微博图片：微博中的图片，保存在以用户昵称为名的文件夹下的img文件夹里
微博视频：微博中的视频，保存在以用户昵称为名的文件夹下的video文件夹里

实例

以爬取迪丽热巴的微博为例，我们需要修改config.json文件，文件内容如下：

{
    "user_id_list": ["1669879400"],
    "filter": 1,
    "since_date": "1900-01-01",
    "write_mode": ["csv"],
    "original_pic_download": 1,
    "retweet_pic_download": 0,
    "original_video_download": 1,
    "retweet_video_download": 0,
    "cookie": "your cookie"
}

对于上述参数的含义以及取值范围，这里仅作简单介绍，详细信息见程序设置。

user_id_list代表我们要爬取的微博用户的user_id，可以是一个或多个，也可以是文件路径，微博用户Dear-迪丽热巴的user_id为1669879400，具体如何获取user_id见如何获取user_id；
filter的值为1代表爬取全部原创微博，值为0代表爬取全部微博（原创+转发）；
since_date代表我们要爬取since_date日期之后发布的微博，因为我要爬迪丽热巴的全部原创微博，所以since_date设置了一个非常早的值；
write_mode代表结果文件的保存类型，我想要把结果写入csv文件和json文件，所以它的值为[“csv”, “json”]，如果你想写入数据库，具体设置见设置数据库；
original_pic_download值为1代表下载原创微博中的图片，值为0代表不下载；
retweet_pic_download值为1代表下载转发微博中的图片，值为0代表不下载；
original_video_download值为1代表下载原创微博中的视频，值为0代表不下载；
retweet_video_download值为1代表下载转发微博中的视频，值为0代表不下载；
cookie是可选参数，可填可不填，具体区别见添加cookie与不添加cookie的区别。

配置完成后运行程序：

$ python weibo.py

程序会自动生成一个weibo文件夹，我们以后爬取的所有微博都被存储在weibo文件夹里。然后程序在该文件夹下生成一个名为"Dear-迪丽热巴"的文件夹，迪丽热巴的所有微博爬取结果都在这里。"Dear-迪丽热巴"文件夹里包含一个csv文件、一个img文件夹和一个video文件夹，img文件夹用来存储下载到的图片，video文件夹用来存储下载到的视频。如果你设置了保存数据库功能，这些信息也会保存在数据库里，数据库设置见设置数据库部分。

csv文件结果如下所示：