python爬去微博签到数据_GitHub - fs6/weiboSpider: 新浪微博爬虫，用python爬取新浪微博数据...-CSDN博客

本文详细介绍了如何使用Python爬取新浪微博用户数据，包括用户信息、微博内容、图片和视频等，并提供了爬取结果的多种存储方式。程序支持增量爬取和自动更新，同时提供了设置不同时间范围和过滤原创微博的选项。此外，还讨论了如何获取和设置cookie，以及如何将数据写入CSV、TXT、JSON和数据库。爬取的数据包括用户昵称、性别、生日、关注数、粉丝数等，并涵盖微博正文、发布时间、点赞数、评论数等详细信息。

摘要由CSDN通过智能技术生成

功能

连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据，并将结果信息写入文件或数据库。写入信息几乎包括了用户微博的所有数据，主要有用户信息和微博信息两大类，前者包含用户昵称、关注数、粉丝数、微博数等等；后者包含微博正文、发布时间、发布工具、评论数等等，因为内容太多，这里不再赘述，详细内容见输出部分。

具体的写入文件类型如下：

写入txt文件(默认)

写入csv文件(默认)

写入json文件(可选)

写入MySQL数据库(可选)

写入MongoDB数据库(可选)

下载用户原创微博中的原始图片(可选)

下载用户转发微博中的原始图片(免cookie版特有)

下载用户原创微博中的视频(可选)

下载用户转发微博中的视频(免cookie版特有)

下载用户原创微博Live Photo中的视频(免cookie版特有)

下载用户转发微博Live Photo中的视频(免cookie版特有)

当然，如果你只对用户信息感兴趣，而不需要爬用户的微博，也可以通过设置实现只爬取微博用户信息的功能。

程序也可以实现爬取结果自动更新，即：现在爬取了目标用户的微博，几天之后，目标用户可能又发新微博了。通过设置，可以实现每隔几天增量爬取用户这几天发的新微博。具体方法见定期自动爬取微博。

本程序需要设置用户cookie，以获取微博访问权限，后面会讲解如何获取cookie。如需免cookie版，大家可以访问https://github.com/dataabc/weibo-crawler，二者功能类似，免cookie版获取的信息更多，用法更简单，而且不需要cookie。

如果想要获得大量微博，见如何获取大量user_id部分。

另外，推荐下另一个程序weibo-search。该程序可以连续获取一个或多个微博关键词搜索结果，并将结果写入文件(可选)、数据库(可选)等。所谓微博关键词搜索即：搜索正文中包含指定关键词的微博，可以指定搜索的时间范围。对于非常热门的关键词，一天的时间范围，可以获得1000万以上的搜索结果，N天的时间范围就可以获得1000万 X N搜索结果。对于大多数关键词，一天产生的相应微博数量应该在1000万条以下，因此可以说该程序可以获得大部分关键词的全部或近似全部的搜索结果。而且该程序可以获得搜索结果的所有信息，本程序获得的微博信息该程序都能获得。

输出

本部分为爬取到的字段信息说明，为了与免cookie版区分，下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息，会有免cookie标注，没有标注的为二者共有的信息。

用户信息

用户id：微博用户id，如"1669879400"，其实这个字段本来就是已知字段

昵称：用户昵称，如"Dear-迪丽热巴"

性别：微博用户性别

生日：用户出生日期

所在地：用户所在地

学习经历：用户上学时学校的名字和时间

工作经历：用户所属公司名字和时间

阳光信用(免cookie版)：用户的阳光信用

微博注册时间(免cookie版)：用户微博注册日期