KGQR-Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rNWTUnTT-1652105380678)(typroa-img/image-20220509220424478.png)]

图2:KGQR的神经结构。(a)知识增强状态表示模块通过递归神经网络和图神经网络保持用户的偏好;(b)候选人选择模块根据用户的积极反馈动态缩减较大的行动空间;© q值网络通过价值网络和优势网络对q值进行预测。

4 KGQR METHODOLOGY

​ 我们提议的框架的概述如图1所示。一般来说,我们的KGQR模型包含四个主要组件:图卷积模块、状态表示模块、候选选择模块和Q-learning网络模块。在交互式推荐过程中,在每个时间步长t, IRS依次向用户推荐项目,并根据用户反馈rt相应地更新后续推荐策略。在一次推荐会话的特定时间,IRS根据用户的交互历史,结合知识图G,通过图卷积模块和状态表示模块对用户的偏好st进行建模。这两个表示法学习模块的细节将在4.1节中讨论。然后IRS通过Q-network计算出候选集中得分最高的条目,并将其推荐给用户。我们将在4.2节和4.3节分别介绍候选人选择模块和深度Q-network模块。

4.1 KG Enhanced State Representation

​ 在IRS场景中,直接获取用户的状态信息是不可能的,我们可以直接观察到的是用户与系统交互的历史记录。由于状态是MDP的关键部分之一,因此状态表示模块的设计是研究最优推荐策略的关键。

4.1.1图卷积嵌入层。

​ 通常,IRS中的状态表示是从用户单击的项目中提取出来的,因为正面的项目表示有关用户偏好的关键信息[42]。给定用户的历史记录,首先将点击项集{it}转换为嵌入向量it∈Rd,其中d为嵌入的维数。由于我们已经将项目与KG中的实体进行了链接,我们可以利用KG中项目之间的语义和关联信息来更好地嵌入项目(G)。

​ 为了将图中的结构和语义知识提取成低维密集节点表示,可以采用不同的图嵌入方法。除了获取语义信息之外,我们倾向于显式地链接这些项,以便一个数据可以影响更多项。因此,在我们的工作中,我们使用了一个图卷积网络(GCN)[17],沿着项的连通性递归地传播嵌入,并学习图G上所有实体{eh∈Rd}h∈E的嵌入。

​ 在单个图卷积嵌入层中,节点表示的计算需要两个步骤:聚合和集成。这两个过程自然可以扩展到多跳,我们用k表示第k跳。在每一层中,首先,我们聚合给定节点h的相邻节点的表示:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fa0DdoHr-1652105380678)(typroa-img/image-20220509220229272.png)]

​ 其中N (h) = N(头)={尾巴|(头、关系、尾)∈G}是h的相邻节点的设置。请注意,在这里我们考虑经典verage聚合器为例,concat聚合等聚合器[9],邻居聚合器或注意力机制(手枪)[28]也可以实现。

​ 其次,我们将邻域表示与h的表示集成为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vNbUPKwJ-1652105380679)(typroa-img/image-20220509220300581.png)]

​ 其中Wk和Bk是k-hop邻域聚合器的可训练参数,σ是实现为ReLU(x) = max(0, x)的激活函数。在公式6中,我们假设邻域表示和目标实体表示通过一个多层感知器集成。经过k-hop图卷积嵌入层后,每个被点击的项被转换成它(G) = ekit。

4.1.2行为聚合层。

​ 由于交互式推荐是一个顺序决策过程,在每个步骤中,模型都需要用户当前的观察作为输入,并提供一个被推荐的项目作为输出。自然会使用自回归模型,如递归神经网络(RNN)来表示基于观察-动作序列的状态[10,23]。因此,我们使用一个带有门控递归单元(GRU)的RNN作为网络单元[6],聚合用户的历史行为,提取用户的状态st (G)。GRU单元的更新函数定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Nw4FPv0W-1652105380679)(typroa-img/image-20220509220337226.png)]

​ 其中:为输入向量,zt和rt分别为更新门向量和复位门向量,◦为elementwise产品算子。隐藏状态ht的更新函数是前一个隐藏状态ht−1和一个新的候选隐藏状态ˆht的线性插值。隐状态ht是当前用户状态的表示,然后将其送入Q-network,即:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-txU0wXZi-1652105380679)(typroa-img/image-20220509220358757.png)]

​ 为简单起见,计算st (G)的整个网络参数集,包括图卷积层参数和GRU单元参数,记为θS。

​ 在图2(a)中,我们演示了上面阐述的知识增强状态表示模块。上部为递归神经网络,以每个时间步被点击项的嵌入作为输入向量,输出当前步被隐藏的状态作为状态表示。项目嵌入作为GRU的输入,通过在KG中执行图卷积网络来学习,如下图所示。

4.2 Neighbor-based Candidate Selection

​ 一般来说,被点击的物品具有一些固有的语义特征,例如类似类型的电影[30]。由于用户通常不太可能对所有条目都感兴趣,我们可以专注于根据KG中的语义信息选择潜在的受限检索对象。具体来说,我们利用KG过滤一些不相关的项(即动作),动态地获得潜在的候选项。限制检索将数据样本集中在更有用的区域,如项目相关性结构所建议的那样。因此,这些潜在的候选者不仅可以减少较大的搜索空间,而且可以提高政策学习的样本效率。

​ 更具体地说,我们执行了一个基于k-hop邻域的抽样策略。在每个时间步t中,用户的历史交互项作为种子集E0t = {i1, i2,…}。从种子实体开始的k-hop邻域集记为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dqqcZZGF-1652105380680)(typroa-img/image-20220509220515437.png)]

​ 然后,将当前用户状态的候选操作集定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-khYzSdrb-1652105380680)(typroa-img/image-20220509220529273.png)]

​ 使用用户定义的基数。图2(b)中的“候选选择”浅层部分表示使用KG信息选择的动作。然后所有候选项通过图卷积层进行嵌入。

4.3 Learning Deep Q-Network

​ 在对用户的状态st (G)建模并获得候选集It (G)后,我们需要设计Q-network来结合这些信息,改进交互推荐过程中的推荐策略。在这里,我们实现了一个深度Q-network (DQN),使用决斗q[35]和双q[27]技术,从当前用户状态建模预期的长期用户满意度,并学习最优策略。

4.3.1 Q-network。

​ 我们采用决斗技术来减小近似方差,稳定训练[35]。即使用两个网络分别计算价值函数V (it (G))和优势函数A(st (G), it (G)),如图2所示。那么q值可以计算为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g23ka4Y8-1652105380681)(typroa-img/image-20220509220615008.png)]

​ 这里的价值函数和优势函数的逼近是由多层感知器完成的。θV和θA分别是值函数和优势函数的参数,我们表示θQ = {θV, θA}。

4.3.2模型训练。

​ 利用所提出的框架,我们可以通过试错过程训练模型的参数。互动推荐过程中,步伐t,推荐代理得到用户的状态观测ot的圣约她,并推荐一个项目通过ϵ贪婪的政策(例如,以概率1−ϵ候选人中的选择项与马克斯•核反应能量概率ϵ选择随机项)。然后代理接收用户反馈的奖励rt,并将反馈的经验(ot, it, rt,ot+1)存储在回放缓冲区D中。从D中抽取小批量的经验样本,最小化均方损失函数来改进Q-network,定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5VAqMVNS-1652105380681)(typroa-img/image-20220509220643988.png)]

​ 这里yt是基于最优Q *的目标值。根据式(3),yt定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G1phRwpd-1652105380681)(typroa-img/image-20220509220657661.png)]

​ 为了缓解原始DQN的高估问题,我们还利用了目标网络Q '和在线网络Q(即双DQN架构[27])。在线网络在每个训练步骤中反向传播并更新其权重。目标网络是在线网络的副本,并通过训练延迟更新其参数。在线网络更新的目标值变为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8wbypifh-1652105380682)(typroa-img/image-20220509220712422.png)]

​ 其中θ ’ Q为目标网络的参数,θ ’ qupdate根据软分配为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zKe8Gn8Q-1652105380682)(typroa-img/image-20220509220726644.png)]

​ 其中插值参数τ也称为更新频率。

​ 综上所述,我们的KGQR的训练过程在算法1中给出。需要注意的是,本文主要关注的是如何将KG与IRS的DRL方法相结合。因此,我们以最典型的DQN模型为例进行研究。我们的方法可以无缝地集成到其他DRL模型,如策略梯度(PG) [3], DDPG[13]等。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 知识图谱推荐系统调查 知识图谱推荐系统是一种基于知识图谱的推荐系统,它利用知识图谱中的实体、属性和关系来推荐物品。该系统可以通过分析用户的兴趣、行为和偏好来生成个性化推荐。知识图谱推荐系统可以应用于各种领域,如电子商务、社交网络和文本推荐等。目前,该领域的研究重点包括知识图谱的构建、推荐算法的设计和评估方法的研究等。 ### 回答2: 知识图谱推荐系统是一种依靠知识图谱构建的推荐系统,它不仅考虑用户的历史行为和个人喜好,还考虑了物品的属性、关系和语义信息。近年来,知识图谱推荐系统在学术和工业界都受到了广泛关注和研究。 在知识图谱推荐系统中,建立知识图谱是关键步骤之一。知识图谱通常由实体和关系构成,实体可以是物品或用户,关系则可以是它们之间的交互行为、属性描述等。实体和关系之间的语义信息可以通过数据挖掘和自然语言处理等技术自动构建,也可以手工添加和维护。知识图谱的构建,需要结合业务场景和领域知识,通过不断迭代和优化,以获得更好的推荐效果和用户满意度。 知识图谱推荐系统的核心算法是基于知识图谱的推荐算法,主要包括基于图的推荐算法、基于规则的推荐算法、基于深度学习的推荐算法等。这些算法的基本思想是通过利用知识图谱的结构信息和语义信息,对用户和物品进行匹配和推荐,以提高推荐的准确性和个性化水平。 知识图谱推荐系统的应用场景非常广泛,包括电商推荐、新闻推荐、社交网络推荐等。知识图谱推荐系统可以更好地利用物品之间的关联和用户之间的交互,同时可以结合人类的知识和专业判断,提高推荐的可解释性和可靠性。 未来,随着人工智能和大数据技术的不断发展,知识图谱推荐系统将会得到更广泛的应用和深入的研究,同时也面临着更多的挑战,如数据隐私和安全问题、知识图谱的动态维护和更新问题等。要开展更深入的研究和解决这些问题,需要结合各种学科和技术手段,以推动知识图谱推荐系统的发展和应用。 ### 回答3: 知识图谱是一种用来描述各种实体以及它们之间关系的图形化表示工具,近年来,知识图谱被广泛应用于推荐系统中。知识图谱推荐系统在推荐过程中利用知识图谱中的实体和关系信息,可以有效地改进推荐结果的质量和效率。 针对知识图谱推荐系统的开发和应用,近年来已经涌现出了各种基于知识图谱的推荐算法和框架。例如,基于图注意力机制的知识图谱推荐系统可以通过考虑实体之间的直接和间接关系,生成更准确的推荐结果。还有一些基于深度学习知识图谱推荐算法,如基于RNN的节点属性与图结构编码的方案,已经被证明在准确性和效率方面都有很高的表现。 此外,还有许多研究集中于知识图谱推荐系统的实际应用。例如,在电影推荐领域,研究表明基于知识图谱的推荐系统能够更准确地预测用户对电影的评价和偏好。在旅游推荐领域,基于知识图谱的推荐系统能够根据用户的兴趣和偏好,为用户提供更加个性化的旅游线路规划。 然而,知识图谱推荐系统仍然面临着许多挑战和问题。例如,在实践中,如何有效地构建和管理知识图谱、如何应对数据稀疏性和冷启动等问题,都需要进一步研究和解决。此外,在知识图谱推荐系统中,如何解释预测结果以及保障数据的隐私性等问题也需要考虑。 总之,基于知识图谱的推荐系统是一个具有广泛研究和应用前景的领域。未来的工作应该更加注重实际应用,并进一步解决相关的技术问题,以提高系统的性能和用户体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值