RippleNet详解(上)：论文详解-CSDN博客

本文链接：https://blog.csdn.net/u012762410/article/details/115064333

RippleNet详解(上)：论文详解

1. 前言

已经很久没有更新博客了，看了一些博客已经被几百赞了，有了一些动力，这一段时间也积累了很多包括论文、代码、技巧等相关经验，后续会陆续更新。
RippleNet详解主要分为两个系列——论文详解和代码详解，这个博客首先对论文进行一些解释。首先呈上论文了链接：Rippleset论文链接(arxiv)

2. 简介

将知识图谱(Knowledge Graph, KG)引入推荐系统(Recommender Systems, RS)主要有三个作用：

缓解冷启动
缓解数据稀疏
可解释性

RippleNet就是基于KG的推荐算法，其目的也是尝试解决以上三个问题。

首先要说明RippleNet的一些特点：

RippleNet使用的KG是item graph。何为item-graph？放在KG中作为实体的主要有用户(user)、商品(item)和属性(attribute)。KG中如果包含三者，则称之为user-item graph，如果KG中只包含item和attribute，则称之为item graph。参见KG for RS综述(arxiv)
RippleNet是Unified Method。利用KG边信息的RS主要分为三类，第一类是基于Path-based Method，如Meta Path；第二类是基于embedding的，如CKE；第三类就是综合第一类和第二类，称为Unified Method。
RippleNet借鉴了GraphSage的思想。RippleNet将用户点击的结点作为源点，像水波纹一样向周围扩展，吸收1-hop和2-hop的信息，实现消息传递。
RippleNet为CTR设计。评估指标是AUC和ACC。

3. 公式分析

3.1 用户商品交互矩阵和预测目标：

（1）用户商品交互矩阵：
user-item interaction matrix
这个很好理解，比如用户点击、收藏或下单的商品，设置为1，否则为0。

（2）预测目标：
prediction function
$\hat{y}_{uv}是用户u点击v的概率;\Theta 包含所有实体、关系的embeddings$

3.2 RippleSet创建：

在介绍RippleSet前，我们先说一个基本概念：

（1）相关实体集
在这里插入图片描述
可以看到这是实体的集合，比如：

k=0，表示用户点击的商品序列
k=1，表示以用户点击的商品序列为头实体的三元组的尾实体；
其他情况以此类推，我们可以想象 $\varepsilon_{u}^{k}$ 就是第k个波纹上的实体。

（2）RippleSet

在论文中的定义：
在这里插入图片描述
看着是不是十分复杂？

对比一下 $S_{u}^{k}$ 和 $\varepsilon_{u}^{k}$ ，我们会发现，除了 $S_{u}^{k}$ 表示三元组， $\varepsilon_{u}^{k}$ 表示实体外，两者是没有区别的。因此，我们可以理解 $S_{u}^{k}$ 就是第k-1个波纹为头实体，第k个波纹为尾实体的三元组集合。

RippleSet是核心数据，根据用户点击的商品，在KG上生成与商品相关的实体集合。用C++模板的表示方式就是：

dict<list<tuple(list<int>,list<int>,list<int>),
	      tuple(list<int>,list<int>,list<int>)>>

这是2-hop的表示，因此最外层list中有两个tuple，分别表示1-hop和2-hop；tuple中的3个list是等长的，分别表示头实体，关系，尾实体。

为什么“等长”会加粗呢？给你三秒钟思考时间：
3
2
1
因为采用了固定大小的邻居采样呀。虽然每个节点的邻居不一样，但是每次采样都采样固定大小的邻居，比如采样16个邻居。如果邻居少于16个，怎么办？重采样呗。你可能好奇我是肿么知道的，因为我看了代码。

3.3 偏好传播：

把邻居采样好以后，就是如何吸收邻居的信息，在GCN中叫做消息传递，在RS里，我们称之为偏好传播，其目的是求出用户的embeddings。
先看论文公式（4）：
在这里插入图片描述
简单来说， $V\in \mathbb{R}^{d}$ 表示用户点击的商品， $h_{i}$ 表示 $V$ 的1-hop邻居， $R_{i}$ 是它们之间的关系。 $p_{i}$ 就是两者的归一化相似度。
因此用户的1-hop表示为不同邻居节点的attention之和：

向外传播的2-hop的用户表示 $o_{u}^{2}$ 可以用同样的方法求得。

用户最终的表示为各hop表示之和：
在这里插入图片描述
论文中采用的是2-hop，也就是：

在获得用户表示 $u$ 之后，用户点击商品的概率通过其內积的sigmoid函数来计算，这是很通用的做法，不需要太多的解释吧。

3.4 如何学习模型：

作者在论文中洋洋洒洒写了一堆公式，咋一看一脸懵逼，其实就是条件概率链式法则，具体如何链式，可参见花书3.6 花书介绍。下面我直接解释论文。

RippleNet的目的是在已知KG $\mathcal{G}$ 和交互矩阵 $Y$ 的条件下，最大化参数 $\Theta$ 后验概率。再次说明一遍， $\Theta$ 可以理解为所有实体和关系的embeddings。
在这里插入图片描述
公式(8)是最大后验估计(MAP)，理论上MAX应该改为argmax，即最大化在给定数据样本的情况下模型参数的后验概率。（2021.4.13）
根据贝叶斯理论和花书3.6链式法则，（8）可以转化为：

即与：

模型参数 $\Theta$ 的先验概率 $p(\Theta)$ 、
给定 $\Theta$ 的条件下，观察到KG $\mathcal{G}$ 的概率 $p(\mathcal{G}|\Theta)$ 以及
给定 $\Theta$ 和KG $\mathcal{G}$ 的观测隐式反馈Y的似然函数 $p(Y|\Theta,\mathcal{G})$

成正比。

对于第一项 $p(\Theta)$ ，因为我们不知道 $\Theta$ 的真实分布，因此，作者假设 $\Theta$ 为高斯分布，所以：
在这里插入图片描述
对于第二项 $p(\mathcal{G}|\Theta)$ ，可以用KGE来表示KG，RippleNet借鉴了语义匹配模型来表示KGE。因此 $p(\mathcal{G}|\Theta)$ 可以转化为每个事实的概率乘积，如（11）第一行，之后通过设置超参 $\lambda _{2}$ 作为方差， $I_{h,r,t}$ 为指示函数((h,r,t为事实则为1否则为0))来增加事实的概率，可得下式：
在这里插入图片描述
对于第三项 $p(Y|\Theta,\mathcal{G})$ ，由于 $Y$ 的取值只有0,1，并且正例的概率为 $\sigma (u^{T}v)$ ,对于一个样例， ${\sigma (u^{T}v)}^{y_{uv}} {\cdot}(1-{\sigma}(u^{T}v))^{1-y_{uv}}$ ，对于所有的评分，有：

综上，损失函数为：
在这里插入图片描述
注意，高斯分布取log就会变成以上平方形式。