目录
一、数据集概述
MIND - small 是微软新闻推荐数据集(MIND)的一个小型子集,专为新闻推荐研究而设计。它的数据源自微软新闻网站的匿名用户行为日志,旨在推动新闻推荐算法的研究与发展,为该领域的科研工作者提供一个相对便捷且有效的数据资源。
二、数据收集与用户隐私保护
MIND - small 的数据收集时间段为 2019 年 10 月 12 日至 11 月 22 日,跨度为 6 周。在此期间,从海量的用户行为数据中随机抽取了 50,000 名用户及其行为日志。为了严格保护用户隐私,每个用户都通过安全的哈希算法转换为一个匿名 ID,并且这些数据与生产系统完全断开链接,确保了原始用户信息不会被泄露或关联。
三、数据集组成
(一)训练集和验证集
该数据集仅包含训练集与验证集。训练集用于构建新闻推荐模型,研究人员通过对训练集中大量数据的学习,使模型能够捕捉到新闻内容与用户行为之间的关系模式。验证集则用于在模型训练过程中评估模型的性能,通过验证集上的指标表现,研究人员可以调整模型参数,防止过拟合等问题,确保模型在不同数据分布下的泛化能力。
(二)新闻信息文件(news.tsv)
此文件包含了新闻文章的丰富详细信息。其中有新闻 ID,用于唯一标识每一篇新闻;类别和子类别,可帮助对新闻进行分类管理与分析;标题和摘要,能够让研究人员快速了解新闻的核心内容;URL 为新闻的网络链接(不过由于许可结构原因,MSN 新闻文章的完整内容正文并未提供下载,虽曾提供一个实用脚本用于解析数据集中的 MSN URL 以获取新闻内容,但目前这些 URL 已过期无法访问);此外,还包含标题和摘要中的实体等信息,这些实体有助于挖掘新闻中的关键对象与元素,为新闻内容的深度理解提供支持。
(三)用户行为文件(behaviors.tsv)
该文件记录了用户的新闻点击行为等印象日志。具体信息包括用户 ID,方便追踪每个用户的行为轨迹;印象时间,可用于分析用户行为在时间维度上的规律;新闻 ID,明确用户点击的具体新闻;以及点击行为等信息。这些数据对于构建用户画像极为重要,通过分析用户的点击历史,能够了解用户的兴趣偏好、阅读习惯等,进而用于分析用户行为模式,为个性化新闻推荐提供有力依据。
四、数据集特点
(一)规模适中
与完整版的 MIND 数据集相比,MIND - small 规模更小。这一特点使得研究人员在有限的计算资源条件下,能够更快速地进行实验,对新的算法思路或模型架构进行初步验证。无需投入大量的计算成本与时间成本,大大降低了新闻推荐研究的门槛,让更多的科研人员能够参与到该领域的研究中来。
(二)代表性
尽管 MIND - small 规模有所缩减,但它是基于对大量用户行为数据的随机抽样而得。这意味着它仍然保留了一定程度的用户行为特征和新闻内容的多样性。通过对这个小型数据集的研究,可以有效反映新闻推荐场景中的常见问题和挑战,例如用户兴趣的动态变化、新闻内容的个性化匹配等,从而为相关算法的研究提供有力的数据支持,研究成果具有一定的实际应用参考价值。
(三)丰富的新闻内容和用户行为信息
从新闻内容角度看,每个新闻文章包含的标题、摘要、类别和实体等信息,为新闻内容理解、表示学习等任务提供了充足的数据。研究人员可以基于这些信息对新闻进行语义分析、主题建模等操作,挖掘新闻的内在特征。在用户行为方面,详细记录的用户点击历史和印象日志,有助于研究用户兴趣建模,通过分析用户的点击序列等信息,预测用户未来的行为趋势,从而实现更精准的新闻推荐。
五、应用场景
MIND - small 适用于广泛的新闻推荐算法的研究与开发场景。
在个性化新闻推荐系统中,利用该数据集训练模型,能够根据用户的历史行为和新闻内容特征,为用户精准推送符合其兴趣的新闻,提升用户体验。
在用户兴趣建模方面,通过对数据集中用户行为的深入分析,构建更准确的用户兴趣模型,捕捉用户兴趣的动态变化。
对于新闻内容表示学习,借助丰富的新闻信息,学习新闻的有效向量表示,便于在推荐过程中进行相似度计算等操作。
此外,在点击 - through 率预测任务中,利用该数据集训练模型预测用户对特定新闻的点击概率,优化推荐策略,提高新闻推荐的准确性和个性化程度。
六、下载流程
(一)访问官网
首先,打开浏览器,访问微软新闻推荐数据集官方网站(MIND )。在该网站页面中,仔细查找与 MIND - small 相关的介绍区域,在此处能够找到 MIND - small 的下载链接。官网通常会提供关于数据集的最新信息、使用说明以及更新动态等,建议在下载前认真阅读相关介绍。
(二)百度网盘下载
我自己也在百度网盘分享了一份。可关注本人博客内容中,私信获取下载链接。