超图论文细品——2019年AAAI《Hypergraph Neural Networks》

lcg_magic

已于 2024-06-21 10:06:34 修改

阅读量4k

点赞数 14

分类专栏： Paper Reading Machine Learning 文章标签：机器学习神经网络图神经网络超图学习

于 2024-06-18 18:54:57 首次发布

本文链接：https://blog.csdn.net/PursueLuo/article/details/139773774

版权

Machine Learning 同时被 2 个专栏收录

15 篇文章

订阅专栏

Paper Reading

13 篇文章

订阅专栏

1 摘要

1.1 简介

文章提出了一种名为超图神经网络的框架，用于高维数据的表示学习。
该方法英文称呼为 Hypergraph Neural Networks，简写为 HGNN。

1.2 问题描述

传统的 GNN 是用于低维数据的表示学习的，没有办法对高维复杂数据进行建模。
超图可以对复杂数据进行建模，挖掘数据中的高维关系。
但是对超图进行表示学习，这仍没有解决方案。

因此，文章作者提出了 HGNN 方法/框架来解决这一问题。

2 超图

2.1 图和超图对比

图和超图最大的区别在于：图中边的度为 2，而超图中边的度可以是任意值（原文说了一个词，特别好：degree-free）。
在这里插入图片描述
文章中给出了一个示例：

上面部分，是一个图（Graph），下面部分是这个图对应的邻接矩阵（adjacency matrix）。

补充：帮助忘记怎么得到邻接矩阵的小伙伴回忆一下，加深印象。

图中的圆圈表示顶点，不同的颜色对不同的顶点加以区分；短线表示边，不同的颜色对不同的边加以区分。图中共有 8 个顶点，记为 $\{n_1,n_2,n_3, \dots, n_8\}$ ；共有 6 条边。
每个顶点，如 $n_1$ ，可以连接其他 7 个顶点以及自身，共 8 个顶点。将顶点 $n_1$ 连接其他顶点的情况排成一行，那么 8 个顶点连接情况就是 8 行，因此就组成了 8 行 8 列的矩阵（8*8）。
如果顶点 $n_i$ 和顶点 $n_j$ 相连，那么邻接矩阵的第 $i$ 行第 $j$ 列位置 $(i, j)$ 上的元素值应该为 1；否则为 0。（前提：所有的顶点按顺序排列。）
这个矩阵的第一行第一个元素表示顶点 $n_1$ 连接顶点 $n_1$ 的情况，第一行的第二个元素表示顶点 $n_1$ 连接顶点 $n_2$ 的情况；其余的以此类推。
观察图， $n_1$ （蓝色）连接了 $n_5$ （灰色）和 $n_6$ （青色），因此第一行的第五个元素、第六个元素值应该为 1，第一行的其他位置元素值为 0。矩阵的其他位置的值，采取同样的策略赋值。
对于无向图，邻接矩阵是对称的；对于有向图，邻接矩阵一般不对称。

在这里插入图片描述
原文中说有多组超边（Hyperedge group 1/2/3/…/N），我理解的应该多种输入数据的形式。

观察上面这个超图，顶点和上面图中的顶点，是一模一样的。常用 $V$ 表示顶点集合，由此 $V=\{n_1,n_2,\dots, n_8\}$ 。超边和图中的边就稍微有些不同了。上面提到，图中有 6 条边，颜色对边进行了区分。超图这里也是用颜色对超边进行了区分。

补充：作者牛逼。这图的审美，真的太棒了。

好了，话说回来，不同的超边使用了不同的颜色。超图中有三种颜色的超边，黑色、红色、深绿色，分别用符号 $e_1$ 、 $e_2$ 、 $e_3$ 来表示。

构建关联矩阵（incidence matrix）：行表示顶点，8 个顶点， $n_1$ 、 $n_2$ 、 $\dots$ 、 $n_8$ ；列表示超边，3 条超边， $e_1$ 、 $e_2$ 、 $e_3$ 。如果某一个顶点属于某一条超边，则关联矩阵对应位置的值为 1；否则为 0。

超边 $e_1$ 包含顶点 $n_2$ 、 $n_4$ 、 $n_8$ ，所以 $n_2, e_1)$ 、 $n_4, e_1)$ 、 $n_8, e_1)$ 位置上的值为 1， $e_1$ 列其他位置上的值为 0。
超边 $e_2$ 包含顶点 $n_1$ 、 $n_6$ 、 $n_7$ ，所以 $n_1, e_2)$ 、 $n_6, e_2)$ 、 $n_7, e_2)$ 位置上的值为 1， $e_2$ 列其他位置上的值为 0。
超边 $e_3$ 包含顶点 $n_3$ 、 $n_5$ 、 $n_7$ ，所以 $n_3, e_3)$ 、 $n_5, e_3)$ 、 $n_7, e_3)$ 位置上的值为 1， $e_3$ 列其他位置上的值为 0。
不知道大家发现没有，顶点 $n_7$ 在两条超边 $e_2$ 、 $e_3$ 都存在。

在这里插入图片描述
同理，可以得到第 $N$ 种数据形式下的关联矩阵 $H_N$ 。

在这里插入图片描述
然后将这 $N$ 个关联矩阵 $\{H_1, H_2, \dots, H_N\}$ 拼接起来，得到了最后的 $H$ 。也即是说：
$\bigcup^N_{i=1} H_i.$

解读：一般的数据超图只有一个，也即是说只有一个 $H$ 。而论文中提到了 $N$ 个 $H_i$ 进行拼接得到一个 $H$ ，应该是为了更好地利用多模态的数据。即考虑了多种数据的形式。
多模态数据 —— Multi-modal data。

2.2 超图性质

如果想详细了解这些知识，可以参看我的另外一篇博客：超图（Hypergraph）基础——论文细品——《Learning with hypergraphs: Clustering, classification, and embedding》

符号	含义
$\mathcal{G}=(\mathcal{V}, \mathcal{E}, \mathbf{W})$	超图
$\mathcal{V}$	顶点集合
$\mathcal{E}$	超边集合
$\mathbf{W}$	超边权重组成的对角矩阵
$\in \mathcal{V}$	顶点集中的一个顶点
$\in \mathcal{E}$	超边集中的一条超边
$\mathbf{H}$	关联矩阵
$h (v, e)$	关联矩阵中顶点 $v$ 对超边 $e$ 的元素值
$d (v)$	顶点 $v$ 的度
$\delta(e)$	超边 $e$ 的度
$\mathbf{D}_v$	顶点度组成的对角矩阵
$\mathbf{D}_e$	超边度组成的对角矩阵

关联矩阵
$\mathbf{H}$ 是超图 $\mathcal{G}$ 的关联矩阵，其中每个元素可以表示为：
$\begin{cases} 1, \text{ if } v \in e, \\ 0, \text{ if } v \not \in e. \end{cases}$
顶点度
对于顶点集中的任意顶点 $\in \mathcal{V}$ ，其度表示为：
$\sum_{e \in \mathcal{E}} w(e) h(v, e).$
超边度
对于超边集中的任意超边 $\in \mathcal{E}$ ，其度表示为：
$\delta(e) = \sum_{v \in \mathcal{V}} h(v, e).$
顶点度对角矩阵
进一步地，使用 $\mathbf{D}_e$ 表示所有超边的度组成的对角矩阵。
超边度对角矩阵
进一步地，使用 $\mathbf{D}_v$ 表示所有顶点的度组成的对角矩阵。

3 HGNN

3.1 问题

考虑超图中顶点的分类问题，那么在超图中顶点标签应该是平滑的。

批注：原文是这么说的，我不太理解。
"Here let us consider the node(vertex) classification problem on hypergraph, where the node labels should be smooth on the hypergraph structure. "

那么问题就进行了转化，变成了如下形式：
$\arg \min_{f} \{ \mathcal{R}_{emp} (f) + \Omega(f) \},$
其中 $\Omega(f)$ 是超图正则项， $\mathcal{R}_{emp}(f)$ 表示监督经验损失， $f(\cdot)$ 表示分类方法。

解读：机器学习中常用的优化函数形式，损失（误差）+ 正则项。

进一步地，正则项 $\Omega(f)$ 定义为：
$\Omega(f) = \frac{1}{2} \sum_{e \in \mathcal{E}} \sum_{\{u, v\} \in \mathcal{V}} \frac{w(e)h(u, e)h(v,e)}{\delta(e)} \left ( \frac{f(u)}{\sqrt{d(u)}} - \frac{f(v)}{\sqrt{d(v)}} \right )^2.$

记
$\theta = \mathbf{D}^{-1/2}_v \mathbf{HW}\mathbf{D}^{-1}_e \mathbf{H}^{\rm{T}} \mathbf{D}^{-1/2}_v,$
$\mathbf{\Delta} = \mathbf{I - \Theta}.$
$\mathbf{\Delta}$ 是一个半正定矩阵（positive semi-definite），通常称为 超图拉普拉斯。

进一步地，正则项可以重写为：
$\Omega(f) = f^{\rm{T}} \mathbf{\Delta}.$

3.2 算法框架

在这里插入图片描述
解读：

输入数据为 $m$ 种类型，也即是多模态数据。
每种数据类型分为训练数据和测试数据。每种数据类型都是单独划分的。
为每种数据类型构建/生成一组超边，共计 $m$ 组。
将 $m$ 组超边合并起来，具体操作方法是关联矩阵。
从输入数据中的到节点的特征，
将超图和节点特征作为输入，经过 HGNN 超图卷积，更新节点特征表示。
最后的节点特征来计算标签，实现分类的目的。

3.3 实现

在论文的视觉对象分类任务中， $N$ 个视觉对象数据的特征可以表示为 $\mathbf{X} = [\mathbf{x}_1, \dots, \mathbf{x}_n]^{\rm{T}}$ 。

解读：我理解的是有 $N$ 个输入数据，每个数据的特征可以用 $n$ 维向量来表示。

思考许久，仍然不知道这个是怎么实现 $K$ 个最近邻的欧氏距离计算的。和研究人工智能领域的小伙伴讨论过后，一致得出一个结论：论文中写错了， $\mathbf{X} = [\mathbf{x}_1, \dots, \mathbf{x}_n]^{\rm{T}}$ 是不正确，正确的应该是 $\mathbf{X} = [\mathbf{x}_1, \dots, \mathbf{x}_N]^{\rm{T}}$ 。
修改过后
$\begin{aligned} \mathbf{X} &= \begin{bmatrix}\mathbf{x}_1 & \dots & \mathbf{x}_N \end{bmatrix} ^{\rm{T}} \\ &= \begin{bmatrix} \mathbf{x}_1 \\ \dots \\ \mathbf{x}_N \\ \end{bmatrix} \\ \end{aligned}$
那么此时，计算任意两个视觉对象之间的欧氏距离 $d(\mathbf{x}_i, \mathbf{x}_j)$ 就非常合理了。通过计算每个 $\mathbf{x}_i$ 与其他 $\mathbf{x}_j$ 之间的欧氏距离，来寻找 $K$ 个最近邻居。这个对象本身以及它的 $K$ 个最近邻居组成了一条超边，该超边包含 $K + 1$ 个顶点，这条超边对应到关联矩阵中有 $K + 1$ 个位置的值为 1。这样，上下文形成了紧密的逻辑联系。原文描述的是两个特征之间的欧氏距离，这个点非常奇怪。如果按照原文的说法，是无法串联到一块儿的。所以我认为原文这里有一些小问题。

以上是我自己的粗浅理解，不一定是正确的，大家看个乐子就好。

接着，用欧氏距离函数来计算两两特征之间的距离 $d(\mathbf{x}_i, \mathbf{x}_j)$ 。这个距离被用于超图的构建过程中。

补充：欧氏距离
对于两个点 $p$ 和 $q$ ，在 $n$ 维空间中的坐标分别是 $(p_1, p_2, \dots, p_n)$ 和 $q_1, q_2, \dots, q_n)$ ，两点之间的欧氏距离 $d (p, q)$ 表示为
$\sqrt{(p_1-q_1)^2 + (p_2-q_2)^2 + \dots + (p_n-q_n)^2}.$

超图构建 过程

每个顶点表示一个视觉对象；
每条超边连接一个顶点和它的 $K$ 个最近邻居。也即是说，每条超边包含 $(K + 1)$ 个顶点。
因为有 $N$ 个视觉对象，每个对象是一个顶点，因此有 $N$ 个顶点；每个顶点都会对应一条超边，因此有 $N$ 条超边，并且每条超边有 $(K + 1)$ 个顶点。
体现到超图的关联矩阵上，就是 $\mathbf{H}$ 是一个 $\times N$ 矩阵 —— $\mathbf{H} \in \mathbb{R}^{N \times N}$ ，其中有 $\times (K+1)$ 个位置的元素值为 1，其他元素为 0，

解读：我就简单解释一下最后一条吧。
(1) 关联矩阵 $\mathbf{H}$ ，以矩阵的形式展示了顶点 $\mathcal{V}$ 和超边 $\mathcal{E}$ 之间的关系。
假设 $\mathcal{V}$ 中有 $m$ 个顶点， $\mathcal{E}$ 中有 $n$ 条超边。翻译翻译，就是 $\lvert \mathcal{V} \rvert =m$ ， $\lvert \mathcal{E} \rvert =n$ 。那么 $\mathbf{H}$ 就是一个 $\times n$ 的矩阵。翻译翻译，就是 $\mathbf{H} \in \mathbb{R}^{m \times n}$ 。
因为 HGNN 的超图中，有 $N$ 个顶点，有 $N$ 条超边，因此 $\mathbf{H}$ 就是一个 $\times N$ 的矩阵。翻译翻译，就是 $\mathbf{H} \in \mathbb{R}^{N \times N}$ 。
(2) 那么后面的 $\times (K +1)$ 个元素值为 1 又是怎么得到的呢？
选择任意一条超边，体现在 $\mathbf{H}$ 中就是任意一列。然后这条超边包含了 $(K + 1)$ 个顶点，体现在 $\mathbf{H}$ 中就是这一列有 $(K + 1)$ 个元素的值为 1（ $\mathbf{H}$ 的定义）。那么有 $N$ 条超边，所以就会有 $\times (K+1)$ 个元素值为 1。自然，剩下的元素值就为 0 咯。