引言
在信息爆炸的时代,个性化新闻推荐成为了在线新闻平台吸引用户、提升用户体验的关键。如何精准地捕捉用户兴趣,从海量新闻中推荐用户真正感兴趣的内容成为了研究热点。现有的新闻推荐方法通常依赖于单一的新闻信息(例如,仅使用标题),这限制了模型对新闻内容的理解,进而影响推荐效果。本文将介绍一种基于注意力机制多视角学习的新闻推荐模型 NAML,该模型能够有效地整合新闻的标题、正文和主题类别等多方面信息,学习更精准的用户和新闻表征,从而提高新闻推荐的精准度。
现有方法的不足
传统的新闻推荐方法往往依赖于人工特征工程,需要耗费大量人力和领域知识。而近年来出现的基于深度学习的推荐方法,例如 DKN 模型 [Wang et al., 2018],虽然能够学习新闻语义特征,但通常只关注单一信息来源,忽略了新闻的多样性。
NAML 模型:多视角下的精准推荐
为了解决上述问题,NAML 模型应运而生。该模型的核心在于其新闻编码器和用户编码器,二者协同工作,力求全面而精准地理解用户和新闻。
新闻编码器:多角度解读新闻内容
新闻编码器将新闻标题、正文和主题类别视为不同的视角,分别进行编码,最后整合生成统一的新闻表征。
- 标题编码器: 使用词嵌入、卷积神经网络(CNN)和词级注意力机制提取标题中的关键信息。
- 正文编码器: 与标题编码器结构相似,也采用了词嵌入、CNN 和词级注意力机制,但针对正文篇幅更长的特点进行了相应的调整。
- 类别编码器: 将新闻类别和子类别 ID 嵌入为低维向量,并通过全连接层学习类别表征。
- 注意力汇聚: 使用视角级注意力机制,根据不同新闻信息对最终表征的贡献度进行加权平均,得到最终的新闻表征。
“NAML 模型采用多视角框架整合不同信息来源,并利用注意力机制识别重要词汇、新闻和视角,从而构建更全面的新闻和用户表征。”
用户编码器:捕捉用户兴趣的蛛丝马迹
用户编码器将用户浏览过的新闻表征作为输入,并使用新闻级注意力机制区分不同新闻对用户兴趣的影响,最终生成用户表征。
点击预测器:精准匹配用户与新闻
点击预测器利用用户表征和候选新闻表征的内积计算用户点击该新闻的概率,从而实现个性化推荐。
实验结果:NAML 模型的优越性
在真实的 MSN 新闻数据集上的实验结果表明,NAML 模型在 AUC、MRR、nDCG@5 和 nDCG@10 等指标上均优于 LibFM、CNN、DSSM、Wide&Deep、DeepFM、DFM 和 DKN 等基线方法。
注意力机制的可视化分析
通过可视化分析,研究人员发现,NAML 模型的注意力机制能够有效地识别新闻标题和正文中的关键词,以及用户浏览历史中的关键新闻,从而验证了注意力机制在捕捉重要信息方面的有效性。
结论
NAML 模型通过多视角学习和注意力机制,有效地整合了新闻的多方面信息,并学习了更精准的用户和新闻表征,最终提升了新闻推荐的效果。