KGQR-Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning

最新推荐文章于 2022-07-23 16:24:00 发布

小白zhang

最新推荐文章于 2022-07-23 16:24:00 发布

阅读量573

点赞数

文章标签：知识图谱深度学习神经网络

本文链接：https://blog.csdn.net/weixin_39447007/article/details/124676723

版权

知识图谱深度强化学习交互式推荐图卷积网络 Q-learning

关键词由CSDN通过智能技术生成

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rNWTUnTT-1652105380678)(typroa-img/image-20220509220424478.png)]

图2:KGQR的神经结构。(a)知识增强状态表示模块通过递归神经网络和图神经网络保持用户的偏好;(b)候选人选择模块根据用户的积极反馈动态缩减较大的行动空间;© q值网络通过价值网络和优势网络对q值进行预测。

4 KGQR METHODOLOGY

我们提议的框架的概述如图1所示。一般来说，我们的KGQR模型包含四个主要组件:图卷积模块、状态表示模块、候选选择模块和Q-learning网络模块。在交互式推荐过程中，在每个时间步长t, IRS依次向用户推荐项目，并根据用户反馈rt相应地更新后续推荐策略。在一次推荐会话的特定时间，IRS根据用户的交互历史，结合知识图G，通过图卷积模块和状态表示模块对用户的偏好st进行建模。这两个表示法学习模块的细节将在4.1节中讨论。然后IRS通过Q-network计算出候选集中得分最高的条目，并将其推荐给用户。我们将在4.2节和4.3节分别介绍候选人选择模块和深度Q-network模块。

4.1 KG Enhanced State Representation

在IRS场景中，直接获取用户的状态信息是不可能的，我们可以直接观察到的是用户与系统交互的历史记录。由于状态是MDP的关键部分之一，因此状态表示模块的设计是研究最优推荐策略的关键。

4.1.1图卷积嵌入层。

通常，IRS中的状态表示是从用户单击的项目中提取出来的，因为正面的项目表示有关用户偏好的关键信息[42]。给定用户的历史记录，首先将点击项集{it}转换为嵌入向量it∈Rd，其中d为嵌入的维数。由于我们已经将项目与KG中的实体进行了链接，我们可以利用KG中项目之间的语义和关联信息来更好地嵌入项目(G)。

为了将图中的结构和语义知识提取成低维密集节点表示，可以采用不同的图嵌入方法。除了获取语义信息之外，我们倾向于显式地链接这些项，以便一个数据可以影响更多项。因此，在我们的工作中，我们使用了一个图卷积网络(GCN)[17]，沿着项的连通性递归地传播嵌入，并学习图G上所有实体{eh∈Rd}h∈E的嵌入。

在单个图卷积嵌入层中，节点表示的计算需要两个步骤:聚合和集成。这两个过程自然可以扩展到多跳，我们用k表示第k跳。在每一层中，首先，我们聚合给定节点h的相邻节点的表示：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fa0DdoHr-1652105380678)(typroa-img/image-20220509220229272.png)]

其中N (h) = N(头)={尾巴|(头、关系、尾)∈G}是h的相邻节点的设置。请注意,在这里我们考虑经典verage聚合器为例,concat聚合等聚合器[9],邻居聚合器或注意力机制(手枪)[28]也可以实现。

其次，我们将邻域表示与h的表示集成为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vNbUPKwJ-1652105380679)(typroa-img/image-20220509220300581.png)]

其中Wk和Bk是k-hop邻域聚合器的可训练参数，σ是实现为ReLU(x) = max(0, x)的激活函数。在公式6中，我们假设邻域表示和目标实体表示通过一个多层感知器集成。经过k-hop图卷积嵌入层后，每个被点击的项被转换成它(G) = ekit。

4.1.2行为聚合层。

由于交互式推荐是一个顺序决策过程，在每个步骤中，模型都需要用户当前的观察作为输入，并提供一个被推荐的项目作为输出。自然会使用自回归模型，如递归神经网络(RNN)来表示基于观察-动作序列的状态[10,23]。因此，我们使用一个带有门控递归单元(GRU)的RNN作为网络单元[6]，聚合用户的历史行为，提取用户的状态st (G)。GRU单元的更新函数定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Nw4FPv0W-1652105380679)(typroa-img/image-20220509220337226.png)]

其中:为输入向量，zt和rt分别为更新门向量和复位门向量，◦为elementwise产品算子。隐藏状态ht的更新函数是前一个隐藏状态ht−1和一个新的候选隐藏状态ˆht的线性插值。隐状态ht是当前用户状态的表示，然后将其送入Q-network，即:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-txU0wXZi-1652105380679)(typroa-img/image-20220509220358757.png)]

为简单起见，计算st (G)的整个网络参数集，包括图卷积层参数和GRU单元参数，记为θS。

在图2(a)中，我们演示了上面阐述的知识增强状态表示模块。上部为递归神经网络，以每个时间步被点击项的嵌入作为输入向量，输出当前步被隐藏的状态作为状态表示。项目嵌入作为GRU的输入，通过在KG中执行图卷积网络来学习，如下图所示。

4.2 Neighbor-based Candidate Selection

一般来说，被点击的物品具有一些固有的语义特征，例如类似类型的电影[30]。由于用户通常不太可能对所有条目都感兴趣，我们可以专注于根据KG中的语义信息选择潜在的受限检索对象。具体来说，我们利用KG过滤一些不相关的项(即动作)，动态地获得潜在的候选项。限制检索将数据样本集中在更有用的区域，如项目相关性结构所建议的那样。因此，这些潜在的候选者不仅可以减少较大的搜索空间，而且可以提高政策学习的样本效率。

更具体地说，我们执行了一个基于k-hop邻域的抽样策略。在每个时间步t中，用户的历史交互项作为种子集E0t = {i1, i2，…}。从种子实体开始的k-hop邻域集记为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dqqcZZGF-1652105380680)(typroa-img/image-20220509220515437.png)]

然后，将当前用户状态的候选操作集定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-khYzSdrb-1652105380680)(typroa-img/image-20220509220529273.png)]

使用用户定义的基数。图2(b)中的“候选选择”浅层部分表示使用KG信息选择的动作。然后所有候选项通过图卷积层进行嵌入。

4.3 Learning Deep Q-Network

在对用户的状态st (G)建模并获得候选集It (G)后，我们需要设计Q-network来结合这些信息，改进交互推荐过程中的推荐策略。在这里，我们实现了一个深度Q-network (DQN)，使用决斗q[35]和双q[27]技术，从当前用户状态建模预期的长期用户满意度，并学习最优策略。

4.3.1 Q-network。

我们采用决斗技术来减小近似方差，稳定训练[35]。即使用两个网络分别计算价值函数V (it (G))和优势函数A(st (G)， it (G))，如图2所示。那么q值可以计算为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g23ka4Y8-1652105380681)(typroa-img/image-20220509220615008.png)]

这里的价值函数和优势函数的逼近是由多层感知器完成的。θV和θA分别是值函数和优势函数的参数，我们表示θQ = {θV， θA}。

4.3.2模型训练。

利用所提出的框架，我们可以通过试错过程训练模型的参数。互动推荐过程中,步伐t,推荐代理得到用户的状态观测ot的圣约她,并推荐一个项目通过ϵ贪婪的政策(例如,以概率1−ϵ候选人中的选择项与马克斯•核反应能量概率ϵ选择随机项)。然后代理接收用户反馈的奖励rt，并将反馈的经验(ot, it, rt,ot+1)存储在回放缓冲区D中。从D中抽取小批量的经验样本，最小化均方损失函数来改进Q-network，定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5VAqMVNS-1652105380681)(typroa-img/image-20220509220643988.png)]

这里yt是基于最优Q *的目标值。根据式(3)，yt定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G1phRwpd-1652105380681)(typroa-img/image-20220509220657661.png)]

为了缓解原始DQN的高估问题，我们还利用了目标网络Q '和在线网络Q(即双DQN架构[27])。在线网络在每个训练步骤中反向传播并更新其权重。目标网络是在线网络的副本，并通过训练延迟更新其参数。在线网络更新的目标值变为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8wbypifh-1652105380682)(typroa-img/image-20220509220712422.png)]

其中θ ’ Q为目标网络的参数，θ ’ qupdate根据软分配为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zKe8Gn8Q-1652105380682)(typroa-img/image-20220509220726644.png)]

其中插值参数τ也称为更新频率。

综上所述，我们的KGQR的训练过程在算法1中给出。需要注意的是，本文主要关注的是如何将KG与IRS的DRL方法相结合。因此，我们以最典型的DQN模型为例进行研究。我们的方法可以无缝地集成到其他DRL模型，如策略梯度(PG) [3]， DDPG[13]等。
在这里插入图片描述

小白zhang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
KGQR-Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning

图2:KGQR的神经结构。(a)知识增强状态表示模块通过递归神经网络和图神经网络保持用户的偏好;(b)候选人选择模块根据用户的积极反馈动态缩减较大的行动空间;© q值网络通过价值网络和优势网络对q值进行预测。4 KGQR METHODOLOGY 我们提议的框架的概述如图1所示。一般来说，我们的KGQR模型包含四个主要组件:图卷积模块、状态表示模块、候选选择模块和Q-learning网络模块。在交互式推荐过程中，在每个时间步长t, IRS依次向用户推荐项目，并根据用户反馈rt相应地更新后续推荐策略。.
复制链接

扫一扫