新闻推荐数据集MIND介绍

新闻推荐数据集介绍

本篇博客介绍的是微软刚刚开源的数据集MIND,关于MIND的介绍可以看这
个:
微软关于MIND数据集的介绍

MIND数据集简介

MIND即MIcrosoft News Dataset的简写,MIND数据集是用来做新闻推荐研究,MIND里的数据来自Microsoft News用户的行为日志。
MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。

MIND数据集的构造

MIND数据集的构造:在2019年十月12号到11月22号这段时间内随机抽取1,000,000的用户的数据(被选择的用户至在这段时间内至少要点击过五篇新闻),用户的ID已经被编码为uID。Microsoft收集了这段时间内用户的行为日志,这个就形成了impression logs。一个impression logs记录的是在特定时间用户访问网站主页时,用户是否点击了展示给用户的文章。MIND数据集里还加入了用户在impression logs之前的点击历史ClickHist

MIND数据集里的一个标签样本形式

一个样本点的形式如下:
[uID; t;ClickHist; ImpLog]

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值