目录
新闻推荐数据集介绍
本篇博客介绍的是微软刚刚开源的数据集MIND,关于MIND的介绍可以看这
个:微软关于MIND数据集的介绍
MIND数据集简介
MIND即MIcrosoft News Dataset的简写,MIND数据集是用来做新闻推荐研究,MIND里的数据来自Microsoft News用户的行为日志。
MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。
MIND数据集的构造
MIND数据集的构造:在2019年十月12号到11月22号这段时间内随机抽取1,000,000的用户的数据(被选择的用户至在这段时间内至少要点击过五篇新闻),用户的ID已经被编码为uID。Microsoft收集了这段时间内用户的行为日志,这个就形成了impression logs。一个impression logs记录的是在特定时间用户访问网站主页时,用户是否点击了展示给用户的文章。MIND数据集里还加入了用户在impression logs之前的点击历史ClickHist。
MIND数据集里的一个标签样本形式
一个样本点的形式如下:
[uID; t;ClickHist; ImpLog]