KGAT：Knowledge Graph Attention Network for Recommendation

最新推荐文章于 2024-08-18 17:38:05 发布

Moonpie.

最新推荐文章于 2024-08-18 17:38:05 发布

阅读量358

点赞数 1

分类专栏： KG RecSys 文章标签：推荐系统知识图谱

本文链接：https://blog.csdn.net/jxpal/article/details/116208815

版权

RecSys 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

6 篇文章 1 订阅

订阅专栏

emm…图片复制过来显示不了（因为我太懒了0.0），要看图的话可以去我的博客瞅瞅，嘿嘿嘿
对了，有些英文短句假如翻译成中文，阅读的时候就太搞脑子了，所以我干脆就不翻译了

我的博客地址：https://hikg.net/archives/123/

Introduction

作者认为： high-order relations（which connect two items with one or multiple linked attributes） are an essential factor for successful recommendation.

传统基于CF的推荐，将每个interaction建模为一个独立的数据实例，并没有考虑到他们的关系。

下图是推荐的一个实例，u1是需要提供推荐的一个目标user。黄、灰圈代表的是由high-order关系发现的关键users、items，但是它们被传统方法忽视了：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UcfcAiFD-1619524788028)(https://516000.xyz/images/2021/03/20/2021-03-20-09.10.32.png)]

CF方法：注重于相似user的历史记录（比如也观看了i1的用户u4、u5）

SL方法（supervised learning）：强调拥有相同属性e1的相似items，例如i2

Path-based Methods

Path-based方法抽取出蕴含高阶信息的path，然后将他们送入预测模型。为了解决2个节点间的path过多的问题，采用路径选择算法、或是定义meta-path的模式来限制path。

第一种方法（路径选择）对最终的性能有较大影响，但是它并没有针对推荐目标进行优化。

定义meta-path需要领域知识，这是劳动密集型的工作

Regularization-based Methods

设计了能够捕捉KG结构的额外损失项，来规范推荐模型的学习。

这些方法没有直接将high-order的关系插入到为推荐优化的的模型中，而仅仅是以一种隐式的方式对他们进行编码

KGAT

本篇论文提出的KGAT模型：递归地传播来自一个节点邻居（可以是user、item、attribute）的embedding，来细化该节点的embedding；并采用注意力机制来区分这些邻居的重要性。

KGAT采用2种设计来相应地解决high-order关系建模中的挑战：

递归嵌入传播recursive embedding propagation：基于某个节点的邻居embedding，更新该节点的embedding；递归地执行这个传播来捕捉high-order connectivities in a linear time complexity
基于注意力的聚合 attention-based aggregation：采用注意力机制去学习传播过程中每个邻居的权重；这样，传播过程中的注意力权重可以表示一个高阶连接的重要性

Task Formulation

Concept of CKG

CKG将user behaviors、item knowledge作为一个联合的关系图进行编码

User-Item Bipartite Graph：是user-item的历史交互；定义为 $u,y_{ui},i)$ 记作 $G_1$ ，其中 $u$ 属于用户集 $U$ ， $i$ 属于item集 $I$ ； $y_{ui}=1$ 表示u、i之间有过交互行为。
Knowledge Graph：是item的side information；表示为 $(h, r, t)$ 记作 $G_2$ 。
a set of item-entity alignments： $A = (i, e)$ ， $i$ 属于 $I$ ， $e$ 属于G2中的实体集； $(i, e)$ 表示item $i$ 可以被对齐到KG中的实体 $e$
Collaborative Knowledge Graph：
- 将每个user的行为表示为三元组 $(u, I n t e r a c t, i)$ ，之前的 $y_{ui}=1$ 在这里表示为u和i之间的一种关系interact
- 然后基于item-entity alignment set，将user-item graph整合到KG $G_2$ 中，得到一个联合图 $G = (h, r, t)$ ，这里的h、t属于联合后的实体E集，r属于联合后的R集

Task Description

输入：CKG $G$ ，包括user-item graph $G_1$ ，知识图谱 $G_2$

输出：一个预测函数，预测了u与i发生交互的概率 $\hat{y}_{ui}$

High-Order Connectivity

将节点之间的L阶的连通性定义为一个多跳的关系路径： $e_0 \stackrel{r_1}{\longrightarrow} e_1 \stackrel{r_2}{\longrightarrow} ... \stackrel{r_L}{\longrightarrow} e_L$ （ $e_l$ 、 $r_l$ 分别属于融合后的 $G$ ， $e_{l-1}, r_l, e_l)$ 是第 $l$ 个三元组， $L$ 是序列的长度）

为了推断user preference，CF方法基于users之间的行为相似度（具体来说，就是：相似的users对items具有相同的偏好）；这种可以被表示为基于行为的连通性，如： $u_1 \stackrel{r_1}{\longrightarrow} i_1 \stackrel{-r_1}{\longrightarrow} u_2 \stackrel{r_1}{\longrightarrow} i_2$ ，这表明了 $u_1$ 对 $i_2$ 有兴趣（因为她相似的user $u_2$ 之前与 $i_2$ 发生过交互）

SL模型关注基于属性的连通性，即：users倾向于与拥有相似属性的items发生交互。例如： $u_1 \stackrel{r_1}{\longrightarrow} i_1 \stackrel{r_2}{\longrightarrow} e_1 \stackrel{-r_2}{\longrightarrow} i_2$ ，表明 $u_1$ 将会与 $i_2$ 发生交互（因为 $i_2$ 与 $u_1$ 之前喜欢的 $i_1$ 拥有相同的导演 $e_1$ ）

。。。。。。

Methodology

KGAT 模型包含3个组件：

embedding layer：通过保留CKG的结构，将每个节点参数化为一个向量
attentive embedding propagation layers：以递归的方式传递一个节点的邻居的embedding，以更新该节点自身的表示；并且采用注意力机制，在传播过程中学习每个邻居的权重
prediction layer：汇总了所有传播层中的a user、an item的表示，并输出预测分数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vpEYUP64-1619524788030)(https://516000.xyz/images/2021/03/25/2021-03-25-18.53.24.png)]

1. Embedding Layer

模型采用了TransR：若三元组(h,r,t)存在于G中，TransR会通过优化翻译原理 $e_h^r + e_r \approx e_t^r$ 来学习嵌入每个实体、关系。这里的 $e_h和e_t$ 是h、t的embedding， $e_h^r和e_t^r$ 是 $e_h和e_t$ 在关系r的空间上的投影。

对于给定三元组(h,r,t)，其plausibility score（energy score）定义为： $g(h,r,t) = ||W_re_h + e_r - W_re_t||_2^2$ ，Wr是关系r的变换矩阵（将实体从d维的实体空间投影到k维的关系空间） $g (h, r, t)$ 越低，表示三元组的置信度越高。

TransR的训练使用的损失函数为： $L_{KG} = \sum{-ln \sigma(g(h,r,t^") - g(h,r,t))}$ ，其中(h,r,t撇)为负采样得到的。

2. Attentive Embedding Propagation Layers

接着，基于GCN的结构，沿着高阶连通性，递归地传播embeddings；此外，通过利用GAT，生成了级联传播的注意力权重，揭示了这种连通性的重要性。

从单层开始描述，每层包括了3个组件：information propagation $e_{N_h}$ 、knowledge-aware attention $\pi(h,r,t)$ 、information aggregation

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KkzlCv7g-1619524788030)(https://516000.xyz/images/2021/03/23/2021-03-23-10.27.51.png)]

Information Propagation

1个实体可以被包含在多个三元组中，这个实体充当了连接2个三元组和传播信息的桥梁。

举例：

$e_1 \stackrel{r_2}{\longrightarrow} i_2 \stackrel{-r_1}{\longrightarrow} u_2$

$e_2 \stackrel{r_3}{\longrightarrow} i_2 \stackrel{-r_1}{\longrightarrow} u_2$

$i_2$ 使用属性 $e_1$ 、 $e_2$ 作为输入来丰富其自身的特征，然后对 $u_2$ 的偏好作出贡献。这可以通过从 $e_1$ 传播消息到 $u_2$ 来模拟。基于此，在实体、其邻居之间执行消息传播。

考虑一个实体 $h$ ，使用 $N_h=(h,r,t)$ 来表示三元组的集合，这里的 $h$ 是头实体，称作ego-network

通过计算h的ego-network的线性组合，可以表征实体 $h$ 的first-order connectivity structure：

$e_{N_h} = \sum\limits_{(h,r,t)\in N_h}{\pi(h,r,t)e_t}$

其中 $\pi(h,r,t)$ 控制了边 $(h, r, t)$ 上每次传播的衰减因子（表明：在关系r的条件下，从 t 传播到 h 的信息量的多少）

Knowledge-aware Attention

通过relational attention mechanism来实现 $\pi(h,r,t)$ ：

$\pi(h,r,t) = (W_re_t)^\top tanh(W_re_h + e_r)$

选择 $t a n h$ 作为非线性激活函数，这使得（基于the distance between $e_h$ and $e_t$ in the relation $r$ ’s space）attention score可以为较近的实体传播更多的信息

注意：为简单起见，仅采用内积来计算这些表示，将来进一步探索attention module

随后，通过采用softmax函数，对所有连接到 $h$ 的三元组的系数进行归一化：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KMwS0nux-1619524788031)(https://516000.xyz/images/2021/03/23/2021-03-23-19.06.04.png)]

最终的attention score $\pi$ 能够区分哪一个邻居节点应该被给予更多的注意力，以此来捕捉collaborative signals。当执行前向传播的时候，attention flow建议关注部分数据，这可以被视作推荐的解释

KGAT模型与GCN、GraphSage的信息传播不同。KGAT不仅能够利用图的临近结构，还能够指出各个邻居的重要性

GAT仅仅将节点的表示作为输入，而KGAT对 $e_h$ 、 $e_t$ 之间的关系 $e_r$ 进行建模，在传播的过程中编码了更多信息

Information Aggregation

最后阶段是聚合实体的表示 $e_h$ 、它的ego-network表示 $e_{N_h}$ ，作为实体h的新的表示，记作： $e_h^{(1)} = f(e_h , e_{N_h})$ 。

使用3种aggregator来实现f()：

GCN Aggregator：

将2个表示进行累加，再应用1个非线性变换

$f_{GCN} = LeakyReLU(W(e_h + e_{N_h}))$

其中W是可训练的权重矩阵，用于提炼有用的传播信息
GraphSage Aggregator：

将2个表示进行拼接

$f_{GraphSage} = LeakyReLU(W(e_h || e_{N_h}))$

其中||是拼接操作
Bi-Interaction Aggregator：

考虑了 $e_h$ 、 $e_{N_h}$ 之间的2种特征交互

$f_{Bi-Interaction} = LeakyReLU(W_1(e_h + e_{N_h})) + LeakyReLU(W_2(e_h ⊙ e_{N_h}))$

W是可训练的权重矩阵，⊙表示element-wise product

与GCN、GraphSage不同，Bi-Interaction还对 $e_h$ 、 $e_{N_h}$ 之间的特征交互进行编码。（这使得要传播的信息对 $e_h$ 、 $e_{N_h}$ 之间的affinity敏感，可以从相似实体传递更多的消息）

总结：

embedding propagation layer的优点在于，可以探索相关user、item、实体表示的 first-order connectivity information。

High-order Propagation

堆叠更多的propagation layers，以探索high-order connectivity information，收集从更高跳的邻居传播的信息。

递归地定义第 $l$ 步中的1个实体的表示：

$e_h^{(l)} = f(e_h^{(l-1)} , e_{N_h}^{(l-1)})$

其中，实体h的information propagated within l-ego network定义如下：

$e_{N_h}^{(l-1)}) = \sum \pi(h,r,t) e_t^{(l-1)}$

$e_t^{(l-1)}$ 是从先前information propagation步骤中生成的实体 $t$ 的表示，记忆了它的 $(l - 1)$ 跳邻居的信息；在初始information-propagation iteration， $e_h^{(0)}$ 被设置为 $e_h$ 。得到的结果继续为第 $l$ 层的实体 $h$ 表示做贡献。

最终，可以在embedding propagation process中，捕捉到形如 $u_2 \stackrel{r_1}{\longrightarrow} i_2 \stackrel{-r_2}{\longrightarrow} e_1 \stackrel{r_2} {\longrightarrow i_1} {\stackrel{-r_1}{\longrightarrow} u_1}$ 的高阶连接性。此外，来自 $u_2$ 的信息被编码在 $e_{u_1}^{(3)}$ 当中。