千万级微博语料数据整理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/nghuyong/article/details/79180449

Update

已经实现了稳定了每日千万级别的微博抓取系统,戳这里微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结

数据说明

整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富

数据最终是一个json文件,每一行都是一个小的json

{
	"_id": {
		"$oid": "5a6c0686ac7eef81e560e719"
	},
	"reposts_num2": "60436093",
	"reposts_num1": "0",
	"level1": "普通用户",
	"level2": "黄V",
	"zan_num2": "701237",
	"zan_num1": "0",
	"is_repost": "1",
	"phone2": "iPhone客户端",
	"address1": "",
	"address2": "",
	"phone1": "小虎牙iPhone 6s Plus",
	"name2": "TFBOYS-王俊凯",
	"name1": "可口俊凯",
	"content1": "最讨厌却要表面的人",
	"content2": "今天我十五岁了,#我的十五岁#有那么多的你们陪伴我,谢谢这几年来你们的一直陪伴,《给十五岁的自己》不仅是给自己的生日歌,也是送给所有支持我的你们[心][心]今天的我有你们很快乐[呵呵]王俊凯《继续》",
	"comments_num1": "0",
	"comments_num2": "2945980"
}

字段说明:

_id 唯一的id号
is_repost: 是否是转发的微博
reposts_num1 : 这条微博的转发量
reposts_num2 : 原始微博的转发量
level1 : 这条微博用户的等级
level2 : 原始微博用户的等级
zan_num1 : 这条微博的赞数
zan_num2 : 原始微博的赞数
phone1 : 这条微博的手机
phone2 : 原始微博的手机
address1 : 这条微博的定位
address2 : 原始微博的定位
name1 : 这条微博用户的昵称
name1 : 原始微博用户的昵称
content1 : 这条微博的内容
content2 : 原始微博的内容
comments_num1 : 这条微博的评论数
comments_num2 : 原始微博的评论数

如果这条微博不是转发的微博,只有这条微博的相关字段,如下:

{
	"_id": {
		"$oid": "5a6c0686ac7eef81e560e723"
	},
	"reposts_num2": "0",
	"reposts_num1": "1",
	"level1": "蓝V",
	"level2": "",
	"zan_num2": "0",
	"zan_num1": "1",
	"is_repost": "0",
	"phone2": "",
	"address1": "",
	"address2": "",
	"phone1": "微博 weibo.com",
	"name2": "",
	"name1": "HelloOffer",
	"content1": "【#上海实习# | 雅诗兰黛集团旗下M.A.C魅可招收多岗位实习生】这是两份干货满满的实习,你不仅能够了解最前沿的美妆资讯,能享受内买等各种福利,十月中旬入职还能参与上海时装周!请尽快投递!",
	"content2": "",
	"comments_num1": "6",
	"comments_num2": "0"
}

数据获取

数据总量有差不多2000w条,时间是2017年国庆节期间的

update

最近联系我索要数据的人,非常多,科研/商业用途都有,所以决定彻底开放出来
百度云链接:https://pan.baidu.com/s/1HhdMcHuhLy9ULuq1jfmCKQ 密码:f4ur
需要请自取,也可以去github上用我开源的代码,自己搭建爬虫爬你需要的内容,地址是https://github.com/nghuyong/WeiboSpider欢迎star!

最后,这些数据也是博主辛苦爬了很久积攒的,如果对您有帮助,可以随意打赏~
您的支持,是我原创的动力!
在这里插入图片描述

更多定制爬虫的交流/讨论,欢迎联系我:nghuyong@163.com

阅读更多

扫码向博主提问

千叶正志

非学,无以致疑;非问,无以广识
去开通我的Chat快问

没有更多推荐了,返回首页