论文笔记：《KGAT: Knowledge Graph Attention Network for Recommendation》

猫岛主人

已于 2022-01-31 13:44:05 修改

阅读量6.3k

点赞数 11

分类专栏：可解释推荐系统文章标签：推荐系统知识图谱神经网络

于 2020-05-16 09:56:36 首次发布

本文链接：https://blog.csdn.net/qq_38871942/article/details/106142744

版权

可解释推荐系统专栏收录该内容

15 篇文章

订阅专栏

本文提出了一种名为KGAT的模型，它利用图神经网络技术在推荐系统中显式地建模高阶关系，通过递归的嵌入传播机制和基于注意力的聚合，解决传统推荐系统在捕捉复杂用户偏好和解释推荐结果方面的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读日期：2020.5.14
论文地址：Paper in ACM DL
gitHub地址：KGAT

研究目的
　　本文主要利用协同过滤的思想，通过图神经网络的技术，研究了在推荐任务中引入知识图谱和用户行为数据，发掘高阶信息作为边信息，进而增强根据用户与物品的交互来预测用户偏好的问题，从而提供更加准确、更多样和更易于解释的推荐。
　　

发现问题
　　目前，利用协同知识图谱（CKG, collaborative knowledge graph）进行推荐的工作可以分为两大类：

Path-based methods
在KG中提取携带高阶信息(high-order relation)的路径，并将其输入预测模型。为了解决两个节点间存在大量路径的问题，有两种方法：
　　①应用路径选择算法来选择突出的路径。
　　　缺点：没有针对推荐问题进行路径选择算法的优化
　　②自定义元路径模式来约束路径
　　　缺点：需领域知识来定义元路径，工作量很大
Regularization-based methods
设计附加的损失项来捕获KG结构，使推荐模型学习规范化。
缺点：由于这些方法是通过隐式编码的方式将高阶信息（high-order relations）引入推荐模型中，缺乏显式的建模。因此既不能保证捕获远距离连通性（long-range connectivity），也不能解释高阶建模（high-order modeling）的结果。

针对目前存在的问题，该研究提出了KGAT模型。其主要有两个特点：
　　①递归的Embedding传播机制
　　通过邻居节点来更新当前节点的表示，并且该算法能够在线性的时间复杂度上进行递归来捕获高阶连接性(high-order connectivities)。
　　
　　②基于注意的聚合
　　利用注意力机制来学习传播过程中每个邻居的权重，使得这种权重可以揭示不同高阶连通的重要程度。

优越性：
　　避免了Path-based中提取路径工作量大的问题
　　避免了高阶相关性无法捕获的问题：显式地将高阶关系纳入预测模型，对所有相关参数进行定制以优化推荐目标。

重要术语定义

1.Collaborative Knowledge Graph
　　CKG可以视为知识图谱（物品间的连接）和用户-物品二部图（主要是用户和物品的交互）的统一。这里选用该论文作者在“推荐系统前沿进展”学术会议中的PPT进行图示：
在这里插入图片描述
2.High-Order Connectivity
　　high-order relations通过一个或多个属性来连接两个item（用户或物品）。利用high-order relation，对于执行高质量推荐非常重要。
　　将节点之间的 L阶连接 定义为一个多跳关系路径： $e_0\xrightarrow{r_1}e_1\xrightarrow{r_2}…\xrightarrow{r_L}e_L$
　　
　　现有的CF和监督学习方法不能挖掘出这种高阶连接。
　　如下图所示，当用户 $u_1$ 和电影 $i_1$ 之间有交互时，协同过滤的方法关注也观看过该电影 $i_1$ 的相似用户，即 $u_4$ 和 $u_5$ ；而监督学习方法（如FM、NFM等）则强调具有属性 $e_1$ 的相似物品，即 $i_2$ 。在这里插入图片描述
　　那么高阶连接是什么呢？如图中黄色圆圈内的用户，他们观看了同一个导演 $e_1$ 指导的电影 $i_2$ ；或灰色圆圈内的物品，与 $e_1$ 有其他相关关系。那么高阶链接就是这种长距离的连接：
　　
　　

研究方法
　　KGAT模型如下图所示，主要包含三个部分：
　　1、Embedding Layer：通过保留CKG的结构将每个节点参数化为一个向量
　　2、Attentive Embedding Propagation Layer：递归地传播节点邻居的Embedding信息以更新其表示，并利用知识感知的注意力机制在传播过程中学习每个邻居的权值
　　3、Prediction Layer：集成来自所有传播层的用户和物品的表示，并输出相应的预测评分
在这里插入图片描述

1. Embedding Layer
　　知识图谱的嵌入，是参数化实体和关系作为向量表示的一种有效方法，同时能够保留图的结构信息。
　　常用的知识表示方法可以分为两类： 基于结构的方法和 基于语义的方法。基于结构的嵌入表示方法包括TransE, TransH, TransR&CTransR, TransD等，这类方法从三元组的结构出发学习KG的实体和联系的表示；基于语义的嵌入表示方法包括NTN、 SSP和 DKRL等，这类方法从文本语义的角度出发学习KG的实体和联系的表示。

关于Trans系列的方法可参考：《基于结构的知识表示学习》
作者：孙天祥
来源：知乎

KGAT采用了TransR方法，对于三元组 $(h, r, t)$ 的似然得分如下：
　　在这里插入图片描述
　　通过有效三元组和无效三元组进行区分的思想，训练成对损失函数如下。该层相当于知识表示的regularizar，提升了模型的表示能力。（实验4.4.3部分将进行验证）
　　

2. Attentive Embedding Propagation Layers —— 重点部分
　　这个部分首先在单层上（如模型图中Attentive Embedding Propagation Layer部分是通过三个叠加layer组成，这里为了便于理解先从单层的角度出发）介绍其三个组成部分，再将其推广到多层上。
　　<1> Information Propagation
　　对于实体 $h$ (head entity)，通过 $N_h = \{(h,r, t)|(h,r, t) ∈ G\}$ 表示三元组集合，称为ego-network。通过如下公式，这种线性组合的思想刻画了实体 $h$ 的一阶连接结构。
　　在这里插入图片描述
　　其中 $π (h, r, t)$ 控制在关系(h, r, t)中实体间传播的衰减系数，其作用是：显示出通过关系 $r$ 有多少信息能够从 $t$ 传播到 $h$ 。
　　<2> Knowledge-aware Attention
　　通过注意力机制对 $π (h, r, t)$ 公式化如下。在relation上距离更近的实体间会传递更多的信息。
　　在这里插入图片描述
　　通过softmax函数对所有与 $h$ 相连的三元组的系数进行归一化：
　　

softmax函数的理解
函数的主要作用是将多分类的结果以概率的形式（非负数；大小在0~1之间，且各概率之和为1）展现。此处通过softmax函数对 $π (h, r, t)$ 进行处理，目的是定量显示出应该给予哪个邻居更多的注意力。

<3> Information Aggregation
　　该模块的作用：将前两层的结果（实体表示 $e_h$ 和 ego-network表示 $e_{N_h}$ ）进行集成，作为实体 $h$ 新的表示形式：
　　 $e_h^{(1)} =f(e_h, e_{N_h})$
　　其中 $f (\cdot)$ 有三种不同的集成方式

GCN Aggregator：
GraphSage Aggregator：
Bi-Interaction Aggregator：（实验部分证明了该形式效果更好，由于其加入了feature-interaction，对实体间关系的敏感性更强）
对应的示意图：左半部分代表 $LeakyReLU(W_1(e_h + e_{N_h}))$ ，右半部分代表 $LeakyReLU(W_1(e_h⊙e_{N_h}))$

多层传播
通过多层传播可以捕获更多信息（多跳邻居所传播的）。在步骤 $l$ 处，递归地将一个实体表示如下：
　　在这里插入图片描述
$f$ 计算的 $e_h^{(l-1)}$ 是实体 $h$ 在 $l - 1$ 层中的表示：通过上一步的信息传播，在 $l - 1$ 层中获取到的邻居信息得到的实体表示。
而 $e_{N_h}^{(l-1)}$ 表示：对于实体 $h$ ，在 $l$ 层的ego-network上传播的信息：
　在这里插入图片描述