[数据集]新浪微博数据集MicroblogPCU

MicroblogPCU数据集来源于新浪微博,包含用户信息、帖子详情和关注关系,用于研究机器学习和社会关系。数据集特别用于识别spammers,并提供了手动标注的标签。数据包括用户ID、昵称、性别、账户级别、发帖数、关注与粉丝数等属性。
摘要由CSDN通过智能技术生成

数据集下载地址:下载

摘要:MicroblogPCU是从新浪微博採集到的。它能够被用于研究机器学习方法和社会关系研究。

这个数据集被原作者用于探索微博中的spammers(发送垃圾信息的人)。他们的demo在这里


数据集的属性信息:

weibo_user.csv  
-user_id: 用户ID
-user_name: 用户昵称
-gender:性别,male,female。other
-class:账户级别
-message:账户注冊位置或其它个人信息
-post_num: 邮政编码
-follower_num: followers的数量
-followee_num: followee的数量
-follow ratio: followee_num/follower_num;
-is_spammer: manually annotated label, 1 表示 spammer,0 表示 non-spammer;


user_post.csv 
-post_id:微博的ID
-post_time:公布时间
-poster_id: 公布用户的ID

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值