千万级微博语料数据整理

Update

已经实现了稳定了每日千万级别的微博抓取系统,戳这里微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结

数据说明

整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富

数据最终是一个json文件,每一行都是一个小的json

{
    "_id": {
        "$oid": "5a6c0686ac7eef81e560e719"
    },
    "reposts_num2": "60436093",
    "reposts_num1": "0",
    "level1": "普通用户",
    "level2": "黄V",
    "zan_num2": "701237",
    "zan_num1": "0",
    "is_repost": "1",
    "phone2": "iPhone客户端",
    "address1": "",
    "address2": "",
    "phone1": "小虎牙iPhone 6s Plus",
    "name2": "TFBOYS-王俊凯",
    "name1": "可口俊凯",
    "content1": "最讨厌却要表面的人",
    "content2": "今天我十五岁了,#我的十五岁#有那么多的你们陪伴我,谢谢这几年来你们的一直陪伴,《给十五岁的自己》不仅是给自己的生日歌,也是送给所有支持我的你们[心][心]今天的我有你们很快乐[呵呵]王俊凯《继续》",
    "comments_num1": "0",
    "comments_num2": "2945980"
}

字段说明:

_id 唯一的id号
is_repost: 是否是转发的微博
reposts_num1 : 这条微博的转发量
reposts_num2 : 原始微博的转发量
level1 : 这条微博用户的等级
level2 : 原始微博用户的等级
zan_num1 : 这条微博的赞数
zan_num2 : 原始微博的赞数
phone1 : 这条微博的手机
phone2 : 原始微博的手机
address1 : 这条微博的定位
address2 : 原始微博的定位
name1 : 这条微博用户的昵称
name1 : 原始微博用户的昵称
content1 : 这条微博的内容
content2 : 原始微博的内容
comments_num1 : 这条微博的评论数
comments_num2 : 原始微博的评论数

如果这条微博不是转发的微博,只有这条微博的相关字段,如下:

{
    "_id": {
        "$oid": "5a6c0686ac7eef81e560e723"
    },
    "reposts_num2": "0",
    "reposts_num1": "1",
    "level1": "蓝V",
    "level2": "",
    "zan_num2": "0",
    "zan_num1": "1",
    "is_repost": "0",
    "phone2": "",
    "address1": "",
    "address2": "",
    "phone1": "微博 weibo.com",
    "name2": "",
    "name1": "HelloOffer",
    "content1": "【#上海实习# | 雅诗兰黛集团旗下M.A.C魅可招收多岗位实习生】这是两份干货满满的实习,你不仅能够了解最前沿的美妆资讯,能享受内买等各种福利,十月中旬入职还能参与上海时装周!请尽快投递!",
    "content2": "",
    "comments_num1": "6",
    "comments_num2": "0"
}

数据获取

数据总量有差不多2000w条

如果需要可以通过邮箱跟我联系
nghuyong@163.com

阅读更多

扫码向博主提问

千叶正志

非学,无以致疑;非问,无以广识
去开通我的Chat快问
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/nghuyong/article/details/79180449
文章标签: 数据 微博
个人分类: 算法 爬虫
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭