让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

最新推荐文章于 2024-03-09 11:52:10 发布

PaperWeekly

最新推荐文章于 2024-03-09 11:52:10 发布

阅读量1.9k

点赞数 3

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/106631706

版权

本文介绍了北京邮电大学和中国人民大学合作提出的KERL模型，该模型结合知识图谱和强化学习解决时序推荐的长期影响问题。通过知识增强的状态表示、知识引导的奖励机制及截断策略学习，KERL模型在多个数据集上展现出优秀性能，证实了知识在强化学习探索中的重要性。

摘要由CSDN通过智能技术生成

‍

‍时序推荐是基于用户的顺序行为，对未来的行为进行预测的任务。目前的工作利用深度学习技术的优势，取得了很好的效果。但是这些工作仅专注于所推荐商品的局部收益，并未考虑该商品对于序列长期的影响。

强化学习（RL）通过最大化长期回报为这一问题提供了一个可能的解决方案。但是，在时推荐场景中，用户与商品交互的稀疏性，动态性增加了强化学习的随机探索的难度，使得模型不能很好地收敛。

近年来，知识图谱被广泛地用于推荐系统，但是这些工作往往忽略了知识对于探索过程的指导，从而使得RL模型不能很好地解决时序推荐任务中用户偏好的漂移。

针对以上问题，北京邮电大学的王鹏飞老师课题组同中国人民大学的赵鑫课题组首次探讨了将强化学习技术应用在时序推荐任务上的可能性。提出了一种知识引导的强化学习模型，将知识图信息融合到 RL 框架进行序列推荐。他们的研究成果 KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation 发表在 2020 年的 SIGIR 会议上。

论文标题：KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation

论文来源：SIGIR 2020

论文链接：https://arxiv.org/abs/2004.08068

框架模型

我们将时序商品推荐问题定义为一个马尔可夫决策过程 (MDP)，并在此框架中进行了三个主要的技术扩展将知识同 RL 框架进行融合，指导探索和重复的学习过程。具体包括知识增强的状态表示方法、引入知识的奖励机制，以及基于截断策略的学习机制。 我们将模型命名为 Knowledge-guidEd Reinforcement Learning model (KERL)，论文模型图如下所示：