千万级微博语料数据整理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/nghuyong/article/details/79180449

Update

已经实现了稳定了每日千万级别的微博抓取系统,戳这里微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结

已经构建了每日亿级的微博全网用户采集,千万级微博用户资料和上亿微博语料数据,戳这里全网微博数据每日亿级实时采集

数据说明

整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富

数据最终是一个json文件,每一行都是一个小的json

{
	"_id": {
		"$oid": "5a6c0686ac7eef81e560e719"
	},
	"reposts_num2": "60436093",
	"reposts_num1": "0",
	"level1": "普通用户",
	"level2": "黄V",
	"zan_num2": "701237",
	"zan_num1": "0",
	"is_repost": "1",
	"phone2": "iPhone客户端",
	"address1": "",
	"address2": "",
	"phone1": "小虎牙iPhone 6s Plus",
	"name2": "TFBOYS-王俊凯",
	"name1": "可口俊凯",
	"content1": "最讨厌却要表面的人",
	"content2": "今天我十五岁了,#我的十五岁#有那么多的你们陪伴我,谢谢这几年来你们的一直陪伴,《给十五岁的自己》不仅是给自己的生日歌,也是送给所有支持我的你们[心][心]今天的我有你们很快乐[呵呵]王俊凯《继续》",
	"comments_num1": "0",
	"comments_num2": "2945980"
}

字段说明:

_id 唯一的id号
is_repost: 是否是转发的微博
reposts_num1 : 这条微博的转发量
reposts_num2 : 原始微博的转发量
level1 : 这条微博用户的等级
level2 : 原始微博用户的等级
zan_num1 : 这条微博的赞数
zan_num2 : 原始微博的赞数
phone1 : 这条微博的手机
phone2 : 原始微博的手机
address1 : 这条微博的定位
address2 : 原始微博的定位
name1 : 这条微博用户的昵称
name1 : 原始微博用户的昵称
content1 : 这条微博的内容
content2 : 原始微博的内容
comments_num1 : 这条微博的评论数
comments_num2 : 原始微博的评论数

如果这条微博不是转发的微博,只有这条微博的相关字段,如下:

{
	"_id": {
		"$oid": "5a6c0686ac7eef81e560e723"
	},
	"reposts_num2": "0",
	"reposts_num1": "1",
	"level1": "蓝V",
	"level2": "",
	"zan_num2": "0",
	"zan_num1": "1",
	"is_repost": "0",
	"phone2": "",
	"address1": "",
	"address2": "",
	"phone1": "微博 weibo.com",
	"name2": "",
	"name1": "HelloOffer",
	"content1": "【#上海实习# | 雅诗兰黛集团旗下M.A.C魅可招收多岗位实习生】这是两份干货满满的实习,你不仅能够了解最前沿的美妆资讯,能享受内买等各种福利,十月中旬入职还能参与上海时装周!请尽快投递!",
	"content2": "",
	"comments_num1": "6",
	"comments_num2": "0"
}

数据获取

数据总量有差不多2000w条,时间是2017年国庆节期间的
因为这部分语料自己爬了一段时间,所以就不免费公开了,100元一份,如果有需要可以联系我: nghuyong@163.com
除此之外还有千万级用户信息和上亿的微博语料数据

没有更多推荐了,返回首页