[进行中...]KG&GCN/异构图GCN

最新推荐文章于 2025-03-01 10:00:00 发布

joshuwang0810

最新推荐文章于 2025-03-01 10:00:00 发布

阅读量2.7k

点赞数 3

分类专栏： GCN paper

本文链接：https://blog.csdn.net/SARACH_WONG/article/details/97781592

版权

paper 同时被 2 个专栏收录

2 篇文章

订阅专栏

GCN

1 篇文章

订阅专栏

本文探讨了知识图谱在推荐系统中的应用，对比分析了KGCN、KGAT及RGCN三种方法。KGCN利用GCN聚合邻居信息，KGAT引入注意力机制，而RGCN则处理关系型数据。实验表明，这些方法能有效提升推荐效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[截图的公式好丑呀…有时间改下…]
# gcn简介
一般分为xxxxx

KGCN: Knowledge Graph Convolutional Networks for Recommender Systems

www2019

本文利用kg的结构（structure）信息和语义（semantic）信息来提高推荐的效果。受到gcn的启发，提出KGCN（ Knowledge Graph Convolutional Networks），KGCN核心跟GCN一样，都是通过将a邻居结点的信息传播到结点a上（想到了概率图模型中的belief）。这样设计有两个好处1）通过聚合操作，每个实体能够捕获到（ local proximity structure）局部近似结构，

在这里插入图片描述

方法

文章将entity $u$ 和item $v$ 中对齐，因此后面可以当作同样的理解。

Propagation

$\pi_{r}^{u}=g(\mathbf{u}, \mathbf{r})$

$\tilde{\pi}_{r_{v}, e}^{u}=\frac{\exp \left(\pi_{r_{v}, e}^{u}\right)}{\sum_{e \in \mathcal{N}(v)} \exp \left(\pi_{r_{v, e}}^{u}\right)}Å$

$\mathbf{v}_{\mathcal{N}(v)}^{u}=\sum_{e \in \mathcal{N}(v)} \tilde{\pi}_{r_{v}, e}^{u} \mathbf{e}$

$\pi_r^v$ ：relation $r$ 对 user $u$ 的重要性，作用等同于个性化过滤（personalized filters）
$N (v)$ ：直接和entity/item $v$ 关联的entity集合；
$v_{S(v)}^u$ : 用户 $v$ 邻居的表示

考虑到对不同的 $e$ ， $N (e)$ 的数量变化很大，文章为每个实体均匀采样了固定大小的邻居 $S (e)$ 而不是用它全部的邻居，如下， $k$ 表示了一层感知域的范围。

$\mathcal{S}(v) \triangleq\{e | e \sim \mathcal{N}(v)\} \text { and }|\mathcal{S}(v)|=K$

聚合(aggregate)过程

提出了三种聚合实体 $v$ 和邻居 $S (v)$ 的方法：

Sum aggregator

$agg_{s u m}=\sigma\left(\mathbf{W} \cdot\left(\mathbf{v}+\mathbf{v}_{\mathcal{S}(v)}^{u}\right)+\mathbf{b}\right)$

Concat aggregator
$agg_{\text {concat }}=\sigma\left(\mathbf{W} \cdot \operatorname{concat}\left(\mathbf{v}, \mathbf{v}_{\mathcal{S}(v)}^{u}\right)+\mathbf{b}\right)$
Neighbor aggregator
$agg_{neighbor}=\sigma\left(\mathbf{W} \cdot \mathbf{v}_{\mathcal{S}(v)}^{u}+\mathbf{b}\right)$

预测目标

表示用户u将会engage（可以理解为喜好）商品v的程度。 $Y$ 是交互历史。
$\hat{y}_{u v}=\mathcal{F}(u, v | \Theta, \mathrm{Y}, \mathcal{G})$

损失函数

这里loss的计算考虑了负采样的策略。 $J$ 表示交叉熵，每个<u,v>采样的数量 $T^u$ 取决于原始的<u,v>的历史交互次数 $T^u=|{v:y_{uv}=1}|$ ， $P$ 是采样的分布，文中服从均匀分布。
在这里插入图片描述

伪码

在这里插入图片描述

实验

方法在 MovieLens-20M (movie), Book-Crossing (book), and Last.FM (music).三个数据集上进行测试。其中的items和KG的数据集Microsoft Satori中的entity进行对齐。对齐过程中，如果出现匹配到多个或者没有匹配到的，就不做考虑。
在这里插入图片描述

邻居结点采样数量的影响

迭代次数的影响

embedding维度的影响

其他

困惑

是第一次利用kg+gcn的吗？是的
这里不太明白为什么能够捕获到这种结构信息？（咨询了一个做图模型的同学，他的回答是，因为捕获到了邻居的信息，这种信息称之为结构信息）
如果基于kg，这样的邻接矩阵不会特别大吗？（文中针对每个用户抽取sub-KG，因此邻接矩阵会很大）
文章中说到采样得到固定的邻居，怎么采的？（在后续有说明）
更新过程中的计算权重部分，u表示怎么得到的？？？

tips

文章提到了几篇处理邻居结点数量不定/变化的情况，在related work中可以找到。

KGAT: Knowledge Graph Attention Network for Recommendation

KDD2019，August 4–8, 2019: https://arxiv.org/pdf/1905.07854.pdf
github: https://github.com/xiangwang1223/knowledge_graph_attention_network

Tat-Seng Chua团队的，资深做推荐。包括

Explainable Reasoning over Knowledge Graphs for Recommendation. In AAAI2019.
Unifying Knowledge Graph Learning and Recommendation: Towards a Better Understanding of User Preferences. In WWW 2019

在这里插入图片描述
黄色部分和灰色部分通过KGAT方式可以发现相关但是传统方式捕获不到。

之前利用CKG的论文可以分为两种：
1）Path-based方式，抽取一些路径去训练模型，相当于两个阶段，因此第一个阶段路径的抽取对最后的性能有很大的影响。另外抽取path是 labor-intensive。
2）Regularization-based 方式主要是在loss中加入了跟kg相关的部分去捕获KG结构信息。这种方式encode kg的方式比较implicit，因此“neither the long-range connectivities are guaranteed to be captured, nor the results of high-order modeling are interpretable.”

因此提出Knowledge Graph Attention Network (KGAT)，“ a model that can exploit high-order information in KG in an efficient, explicit, and end-to-end manner.”

方法

User-Item Bipartite Graph: 将历史交互信息构建bipartite graph $G 1$
KG： $G 2$
CKG： $G = G 1 + G 2$ , 通过match entity和item 将 $G 1$ ， $G 2$ 合并成 $G$
embedding：在CKG上用TransR训练

GCN的整个过程分为Information Propagation和Information Aggregation

Information Propagation
$h$ 能够的邻居结点 $N_h$ 中获取到的信息：

Knowledge-aware Attention的计算过程
1）利用TransR计算embedding表示

2.）计算attention
Information Aggregation
三种聚合方式：
- GCN Aggregator （和上面的Sum aggregator的激活函数不同）
- GraphSage Aggregator （和上面的Concact aggregator的激活函数不同）
- Bi-Interaction Aggregator

将上述传递，扩展到多跳：（直接看公式就是加了层次的上标 $(l)$ ）
在这里插入图片描述

3. prediction
各层拼接作为最终表示：

预测：

4. loss: BPR loss

其中， $O = \{(u,i,j)|(u,i) ∈ R^+,(u,j) ∈ R^−\}$ , $R^−$ 表示历史记录中跟user $u$ 没有交互记录的item $j$ 。

（负采样的时候，被采样的是跟用户没有交互的item，但是并不表示用户dislike这些，应该是考虑到item量大…？反正交互稀疏？）
所以怎样的训练是合理的？原始的训练方式

实验设置&数据集

推荐数据集：Amazon-book，Last-FM，Yelp2018。
Amazon-book，Last-FM 中的item跟FB中的实体对齐。除对齐之外，还考虑了2-hop的邻居进行扩展。
对于Yelp2018，从文本（ local business information network ）中抽取 (e.g., category, location, and attribute) 作为KG。
为了保证质量，过滤掉KG中entity出现次数小于阈值(10次)的数据
简单交叉验证：80%，10%，10%，随机选取。

结果

在三个数据集的整体结果，KGAT的方式比其他的方式好
递归次数的影响
聚合方式的影响
attention的影响，第一行去掉KG emb用平均的传递方式，第二种是去掉KGE
可解释

RGCN：Modeling Relational Data with Graph Convolutional Networks

https://arxiv.org/pdf/1703.06103.pdf， 2018

Propagation+ Aggregation

在这里插入图片描述

[待看] Heterogeneous Graph Attention Network

https://arxiv.org/pdf/1903.07293.pdf

[待看] GraphRec：Graph Neural Networks for Social Recommendation

https://arxiv.org/pdf/1902.07243.pdf

KGCN vs KGAT vs RGCN

KGCN:

场景：推荐
针对每个用户，抽取不同图结构。
利用GCN的方式，不同用户对不同relation会有不同的计算不同weight。

	RGCN	KGCN	KGAT
场景	KGE	RS	RS
思路	给不同relation不同权重	不同用户对不同relation会有不同的计算不同weight，为每个用抽取sub-KG	将user-item的交互和KG信号放在一张图中
attention	——
传播