推荐系统论文:MIND: A Large-scale Dataset for News Recommendation

MIND论文总结

MIND数据集

MIND新闻数据集由微软新闻的用户点击日志构建,包含100万用户和16万篇英语新闻文章。
在MIND数据集上,论文作者实现了很多的前沿的推荐系统,期望作为一个数据集上的基准方法与指标。
大量实验显示,利用NLP的方法理解新闻文章、有效的文本表示、预训练语言模型以及用户兴趣建模对新闻推荐系统都有帮助。
MIND与其它数据集的比较
MIND数据集详细信息:
用户数据:在2019年10月12日至11月22日的6周内至少有5条新闻点击记录的用户

印象日志:记录用户在特定时间访问新闻网站主页时显示给他的新闻文章,以及他在这些新闻文章上的点击行为,同时包含用户的新闻点集历史。

记录形式:[uID, t, ClickHist, ImpLog],t为时间戳,ClickHist为用户点击历史,ImpLog包含在此印象日志中显示的新闻文章的ID和指示它们是否被单击的标签,即[(nID1,label1),(nID2,label2),.],其中nID是新闻文章ID,标签是单击标签(1表示单击,0表示非单击)。

数据划分:论文采用第六周的数据作为测试集,第五周的数据作为训练集。 对于训练集中的样本,使用前四周的点击行为来构造新闻点击历史。 对于测试集中的样本,前五周点击行为作为新闻的点击历史。 在训练数据中,使用了第五周最后一天的样本作为验证集。同时只保留样本与非空新闻点击历史。

新闻推荐系统

1.冷启动问题突出:
网页上的新闻推荐更新迭代十分迅速,新的新闻不断发布而现有的文章将很快失去热度。
用户的冷启动问题也较为突出
2.新闻理解:
新闻文章包含丰富的文本信息,如标题和正文等,需要在准确的理解上进行处理。
3.用户兴趣:
没有直接的评分选项,往往需要从用户的行为如点击行为来推断出用户的兴趣。

实现的新闻推荐方法

Microsoft Recommenders open source repository
不同方法与模型的效果

比较与结论

性能比较
1.新闻领域推荐方法相较于通用推荐系统方法表现更好。因为在新闻领域推荐方法中,新闻文章和用户兴趣的表示是以端到端的方式学习的,而在一般的推荐方法中,通常是基于手动特征选择方法进行的。同时也证明了深度学习的有效性。

2.先进的深度学习技术如NRMS采用了multi-head和self-attention来学习新闻和用户的表示;LSTUR则记录了用户的短期兴趣(GRU)以及长期兴趣,效果更好。

3.在各项指标上(AUC、MRR、nDCG),部分用户训练与全部用户训练结果相差不大,这表明,通过从用户先前点击的新闻内容中推断出用户的兴趣,对部分用户训练的新闻推荐模型可以有效地应用于剩余用户和未来的新用户。

新闻理解
该部分利用文本表示方法来进行新闻表示,并应用于三个表现较好的新闻推荐模型中(NAML、LSTUR、NRMS),使用的表示方法及效果如图所示:
新闻表示
1.神经文本表示方法较传统的文本表示方法更好,其能利用上下文生成新闻表示。

2.self-Att和LSTM相较于CNN更好,因为self-Att和LSTM能够捕获单词的远程上下文,而CNN只能利用局部的上下文进行建模。

3.注意力机制有不错的提升。

4.预训练语言模型BERT有很大的提升(利用维基百科进行预训练)。
BERT模型的加入

5.利用更多的新闻信息能够提高效果。各个方面的信息是互补的,可以相互提高;标签信息是十分有用的,作为Keyword,能够标识新闻;不同的新闻有不同的特点,自动学习比直接拼接更好。
新闻信息利用

用户兴趣建模
不同用户建模方法
1.Attention机制能够选择有信息的行为构建用户
2.Candidate-Att能够合并候选新闻信息来选择有信息的行为
3.GRU能够捕获行为的序列信息
4.LSTUR表现很好,其可以使用不同时间范围内的行为来模拟长期和短期用户的兴趣
5.Self-Att也有较强的性能,因为它可以对用户的历史行为之间的长期相关性进行建模
点击历史长度影响
点击历史越长,包含用户信息越多,效果越好。其也反映出用户的冷启动建模问题。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值