KERL A Knowledge-Guided Reinforcement Learning Modelfor Sequential Recommendation

KERL: A Knowledge-Guided Reinforcement Learning Modelfor Sequential Recommendation

记录个人论文学习笔记!

论文基本信息

作者/团队

北京邮电大学王鹏飞与中国人民大学赵鑫

期刊/会议(年份)

会议:SIGIR2020 A类

源码:GitHub - fanyubupt/KERL: KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation

简要概括

时序推荐是基于用户的顺序行为,对未来的行为进行预测的任务。目前的工作利用深度学习技术的优势,取得了很好的效果。但是这些工作仅专注于所推荐商品的局部收益,并未考虑该商品对于序列长期的影响。强化学习(RL)通过最大化长期回报为这一问题提供了一个可能的解决方案。但是,在时推荐场景中,用户与商品交互的稀疏性,动态性增加了强化学习的随机探索的难度,使得模型不能很好地收敛。

受知识图可用性(KG)的启发,我们提出了一种新的知识引导强化学习模型(KERL),将KG信息融合到顺序推荐的RL框架中。具体地说,我们将顺序推荐任务形式化为马尔科夫决策过程(MDP),并在该框架中进行了三个主要的技术扩展,包括状态表示、奖励函数和学习算法。首先,我们提出利用KG信息增强状态表示,同时考虑开发和探索。其次,我们精心设计了一个复合奖励函数,能够同时计算序列和知识层面的奖励。第三,我们提出了一种新的算法来更有效地学习所提出的模型。据我们所知,这是第一次在基于rl的顺序推荐中明确地讨论和利用知识信息,特别是在探索过程中。对下一项和下一项推荐任务的大量实验结果表明,我们的模型在四个真实数据集上显著优于基线。

论文主要内容

框架模型

为了解决上述问题,本文提出了一种新的知识指导强化学习模型(KERL),将KG信息融合到一个顺序推荐的RL框架中。具体来说,我们将顺序推荐任务形式化为马尔可夫决策过程(MDP),并在这个框架中进行了三个主要的技术扩展。首先,我们提出用KG信息增强状态表示。通过学习序列级和知识级状态表示,我们的模型能够更准确地捕捉用户偏好。特别是,我们认为在勘探过程中利用KG信息是非常重要的。为此,我们构建了一个感应网络,旨在预测未来用户偏好的知识特征。这样,我们可以学习基于知识的用户偏好,同时考虑开发和探索。其次,我们精心设计了一个能够同时计算序列级和知识级奖励信号的复合奖励函数。对于序列级的奖励,我们借用机器翻译中的BLEU度量[21],衡量推荐序列的整体质量。对于知识级奖励,我们要求实际序列和推荐序列的知识特征相似。第三,我们提出一个截断的策略梯度策略来训练我们的模型。针对感应网络训练的稀疏性和不稳定性,我们进一步引入了带有模拟子序列的两两学习机制,以改进感应网络的学习。 我们将模型命名为 Knowledge-guidEd Reinforcement Learning model (KERL),论文模型图如下所示:

image-20211005170440349

知识引导强化学习模型(KERL)的总体架构。KERL通过MDP将顺序推荐形式化,并且设计了三个新的扩展来融合KG信息,以提高推荐性能。

MDP定义

首先,我们使用MDP来构建我们的任务。

定义:状态:$s_{t} \in S $。 s t = [ i 1 : t , G ] s_{t} = [i_{1:t},G] st=[i1:t,G] i 1 : t i_{1:t} i1:t为user u生成的前一个交互序列,g表示KG信息。

在本文中,我们使用一个softmax函数来计算选择项目的概率:

q j ∈ R L I q_{j}\in R^{L_{I}} qjRLI表示第j项的嵌入向量,W1是双线性积中的参数, V s t V_{s_{t}} Vst表示状态 s t s_{t} st的嵌入向量。

转换函数T更新 :

学习知识增强的状态表示

**序列级状态表示:**我们采用标准的递归神经网络对前一交互序列进行编码:

这种表示方法主要捕捉用户偏好的顺序特征,并没有利用知识信息来派生状态表示。

**知识级状态表示:**KG数据对于改进顺序推荐算法的性能很有帮助。然而,以前的方法主要考虑用KG数据增强项目或用户表示,用MLE[35]拟合短期行为。他们很少研究KG数据如何被用于优化长期目标的探索。为了在开发和探索之间取得良好的平衡,我们考虑为用户建立两种基于知识的偏好模型,即当前基于知识的偏好(简称当前偏好)和未来基于知识的偏好(简称未来偏好)。

每个item都与KG中的一个实体相关联。使用TransE技术计算出每个物品的嵌入 V e i t V_{e_{i_{t}}} Veit

**学习当前的偏好:**此外,我们使用一种简单的平均池化方法来聚合用户交互过的历史物品的所有KG嵌入:

**预测未来的偏好:**基于当前的偏好,我们的想法是建立一个归纳法网络来直接预测未来的偏好。特别地,我们利用多层感知构造了一个神经网络。预测在 t t t时刻的未来 k k k 步的偏好表示,输入为当前偏好 c t c_{t} ct,输出 :

导出最终状态表示:

奖励函数设置

定义适当的奖励函数对于RL算法尤其重要。在顺序推荐中,通常根据项目id的精确匹配来衡量最终的性能。而交互序列是由用户根据其对商品属性或配置文件(可从KG获得)的偏好生成的。因此,除了项目层面的绩效外,衡量推断出的知识层面偏好的质量也很重要。

奖励分解。基于上述动机,在时间步长 t t t下,我们通过整合两种不同的奖励函数来定义k-step奖励函数:

**序列级奖励:**我们借用机器翻译中的 B L E U BLEU BLEU 度量。进行序列推荐。形式上,给定实际交互子序列 i t : t + k i_{t:t+k} it:t+k和推荐子序列 i ^ t : t + k \hat{i} _{t:t+k} i^t:t+k,我们将奖励函数定义为

其中, p r e c m prec_{m} precm修正精度计算为:

**知识级奖励:**为了度量两个向量之间的差异,我们采用余弦相似度作为奖励函数:

学习和讨论

采用了截断式的策略梯度学习参数,使得所有用户的预期累计奖励 J ( Θ ) J(\Theta ) J(Θ)最大:

对于每个状态 s t s_{t} st,采样 L L L条长度为 k k k 的子序列进行梯度更新:

**训练归纳网络:**KG信息很可能包含推荐任务的噪声或无关信息,为了更好地学习归纳网络,我们提出了一种成对排序策略来改进训练过程。现在有采样得到的 L L L条子序列

image-20211005170211903

配对排序策略就是如果image-20211005170226706

image-20211005170244698

image-20211005170657801

创新点、关键要素

  1. 我们将顺序推荐任务形式化为马尔可夫决策过程(MDP),并融合KG信息以提高推荐性能。据我们所知,这是第一次在基于rl的顺序推荐中明确地讨论和利用知识图数据,特别是在探索过程中。
  2. 我们在MDP框架中对顺序推荐进行了三个新的扩展,包括状态表示、奖励功能和学习策略。通过三个主要的扩展,KG信息被有效地利用并集成到基于rl的顺序推荐中。
  3. 对四个真实世界数据集的实证结果表明,我们的模型在不同指标下的下一项和下一项推荐任务上都能始终超过最先进的基线。

实验设计、对比方案

数据集设置:

image-20211005170410632

Baselines:我们采用三种类型的基线进行比较,包括基于顺序的模型、基于知识的模型和混合模型。对于基于序列的模型,我们考虑了浅模型和深模型:

  • FPMC[22]是一个将矩阵分解和一阶马尔可夫链分解相结合的浅层模型。

  • DREAM[31]利用递归神经网络对用户的动态表示和物品之间的顺序关系进行建模。

  • GRU4Rec[9]是一个基于会话的推荐,它利用GRU来捕获用户的长期连续行为。

  • KGAT[28]研究了协同知识图中用于知识感知推荐的语义关系的高阶连接。

  • Ripple[26]是一种基于嵌入的方法,它沿着知识图中的链接对用户的潜在兴趣进行建模,以便进行推荐。

  • KSR[12]是一种新型的基于网格的顺序推荐算法,它与知识增强的KV-MNs相结合。

  • GRUF[10]是GRU4Rec的扩展,它包含了一些辅助功能以供推荐使用。与[12]类似,我们将预先训练的BPR项目向量与KG嵌入连接起来作为GRU的输入。

总结

在本文中,我们提出了一种新的知识引导强化学习模型,称为KERL,将KG信息融合到一个顺序推荐的RL框架中。具体地说,我们将顺序推荐任务形式化为马尔科夫决策过程(MDP),并在该框架中进行了三个主要的技术扩展,包括状态表示、奖励函数和学习算法。我们模型的一个主要新颖之处在于,KG信息在MDP框架中被有效地用于探索和开发。实证结果表明,我们的模型在四个真实数据集上可以显著优于基线。我们还对KERL模型进行了详细的分析,以说明我们的扩展的有效性。

据我们所知,这是第一次在基于rl的顺序推荐中明确地讨论和利用知识图数据,特别是在探索过程中。目前,我们关注的是知识信息在RL框架中的利用,而不是知识表示。我们采用现有的KG嵌入方法来学习项目的知识表示。作为未来的工作,我们将考虑在RL框架中如何自适应地学习更好的顺序推荐的知识表示。

所知,这是第一次在基于rl的顺序推荐中明确地讨论和利用知识图数据,特别是在探索过程中。目前,我们关注的是知识信息在RL框架中的利用,而不是知识表示。我们采用现有的KG嵌入方法来学习项目的知识表示。作为未来的工作,我们将考虑在RL框架中如何自适应地学习更好的顺序推荐的知识表示。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值