时序推荐是基于用户的顺序行为,对未来的行为进行预测的任务。目前的工作利用深度学习技术的优势,取得了很好的效果。但是这些工作仅专注于所推荐商品的局部收益,并未考虑该商品对于序列长期的影响。
强化学习(RL)通过最大化长期回报为这一问题提供了一个可能的解决方案。但是,在时推荐场景中,用户与商品交互的稀疏性,动态性增加了强化学习的随机探索的难度,使得模型不能很好地收敛。
近年来,知识图谱被广泛地用于推荐系统,但是这些工作往往忽略了知识对于探索过程的指导,从而使得RL模型不能很好地解决时序推荐任务中用户偏好的漂移。
针对以上问题,北京邮电大学的王鹏飞老师课题组同中国人民大学的赵鑫课题组首次探讨了将强化学习技术应用在时序推荐任务上的可能性。提出了一种知识引导的强化学习模型,将知识图信息融合到 RL 框架进行序列推荐。他们的研究成果 KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation 发表在 2020 年的 SIGIR 会议上。
论文标题:KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation
论文来源:SIGIR 2020
论文链接:https://arxiv.org/abs/2004.08068
框架模型
我们将时序商品推荐问题定义为一个马尔可夫决策过程 (MDP),并在此框架中进行了三个主要的技术扩展将知识同 RL 框架进行融合,指导探索和重复的学习过程。具体包括知识增强的状态表示方法、引入知识的奖励机制,以及基于截断策略的学习机制。 我们将模型命名为 Knowledge-guidEd Reinforcement Learning model (KERL),论文模型图如下所示:
融合知识的状态表示方法
我们通过融合知识的信息来加强状态向量的表达能力。但是在购物场景中,用户的偏好是动态变化的,这在强化学习探索长序列过程中更加明显,仅依据历史序列的知识不能充分的指导强化学习的探索过程。为此,我们创造性的将知识分成了两部分具体设计方式如下:
其中
表示时序信息,
表示历史知识,
表示未来知识。具体对于
,我们构造了一个推断网络来利用建模历史知识与未来知识的关联性,并最终将三部分信息进行融合,构造状态的向量表达:
融合知识与序列的复合奖励函数
对于激励函数我们同时考虑了推荐商品时序和知识的准确性,以此来增强对于探索过程的指导。具体的,对于时序角度的激励函数 ,我们机器翻译评估工作的启发,通过 BLEU 指标,评估预测序列 和真实序列 之间单个商品,以及子序列片断的相似性:
公式中 为修整过的 m 单位片段精确度。
其中 是