新闻推荐数据集MIND介绍

本文详细介绍了微软发布的MIND数据集,一个用于新闻推荐研究的大规模数据集,包含百万用户与160,000篇文章的交互。数据集包括用户ID、时间戳、点击历史和交互日志,以及丰富的新闻元数据。微软通过对比指出,MIND的数据量、英文特性及详细新闻信息使其成为新闻推荐算法研究的理想选择。" 115046896,7730824,C语言中使用uthash实现哈希操作,"['C语言开发', '数据结构', '哈希表']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

新闻推荐数据集介绍

本篇博客介绍的是微软刚刚开源的数据集MIND,关于MIND的介绍可以看这
个:
微软关于MIND数据集的介绍

MIND数据集简介

MIND即MIcrosoft News Dataset的简写,MIND数据集是用来做新闻推荐研究,MIND里的数据来自Microsoft News用户的行为日志。
MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。

MIND数据集的构造

MIND数据集的构造:在2019年十月12号到11月22号这段时间内随机抽取1,000,000的用户的数据(被选择的用户至在这段时间内至少要点击过五篇新闻),用户的ID已经被编码为uID。Microsoft收集了这段时间内用户的行为日志,这个就形成了impression logs。一个impression logs记录的是在特定时间用户访问网站主页时,用户是否点击了展示给用户的文章。MIND数据集里还加入了用户在impression logs之前的点击历史ClickHist

MIND数据集里的一个标签样本形式

一个样本点的形式如下:
[uID; t;ClickHist; ImpLog]

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值