笔记整理:李爽,天津大学
链接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401174
动机
交互式推荐系统(IRS)以其灵活的推荐策略和考虑最佳的长期用户体验而备受关注。为了处理动态用户偏好,研究人员将强化学习(reinforcement learning,RL)引入到IRS中。然而,RL方法有一个普遍的样本效率问题,即训练有效的推荐策略需要大量的交互数据,这是由于稀疏的用户响应和由大量候选项组成的大的行为空间造成的。此外,在网络环境中,通过探索性政策收集大量数据是不可行的,这可能会损害用户体验。在这项工作中,作者研究了利用知识图谱(KG)来处理IRS RL方法存在的这些问题,它为推荐决策提供了丰富的侧面信息。在两个真实世界的数据集上进行全面的实验,证明了作者提出的方法与先进技术相比有显著的改进。
亮点
KGQR的亮点主要包括:
1.通过利用KG中的先验知识进行候选项选择和从稀疏用户反馈中学习用户偏好,KGQR可以提高基于RL的IRS模型的样本效率;2.采用图神经网络的方法,考虑项目之间的语义相关性,能够更准确地表示用户的动态偏好。
概念及模型
模型的整体框架如下图所示。
•KG增强的状态表示
在IRS场景中,不可能直接获得用户的状态,可以直接观察到的是记录的用户系统交互历史。
(1)图卷积嵌入层
为了将图中的结构和语义知识提取为低维稠密的节点表示,作者使用了图卷积网络(GCN)。在单个图卷积嵌入层中,节点表示的计算分为两步:聚合和集成。这两个过程可以扩展到多跳,使用符号k来标识第k跳。在每个层中,首先聚合给定节点h的相邻节点的表示: