图卷积神经网络-CSDN博客

本文链接：https://blog.csdn.net/wd9ljs18/article/details/115863973

一、卷积神经网络
- 1.1 CNN的定义
- 1.2 从CNN 到 graph CNN
二、卷积
三、谱方法
四、图小波神经网络（ICLR 2019)
五、空间方法
六、利用Heat Kernel进行半监督学习的图卷积网络
七、Graph Pooling
- 7.1 图粗化（Graph coarsening）
- 7.2 节点选择（node selection）

一、卷积神经网络

1.1 CNN的定义

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一
卷积神经网络(CNN)在欧氏数据，如图像、文本、音频和视频等领域，取得了很大的成功。

包括图像分类，目标检测，机器翻译
CNN的能力
体现学习局部平稳结构，通过局部卷积滤波器，并组合它们形成层次化多尺度的结构模式

M. M. Bronstein, J. Bruna, Y. LeCun, A. Szlam, P. Vandergheynst. Geometric deep learning: going beyond Euclidean data. IEEE Signal Processing Magazine, 18-42, 2017.

局部卷积滤波器
在空间上有平移不变性，它们能够独立于它们的空间位置识别相同的特征

一个有趣的问题是如何将卷积推广到非欧几里得域，如Graph?

1.2 从CNN 到 graph CNN

在欧几里得数据中，网格状数据中定义卷积较为简单
在现实世界中，不规则网络上定义卷积面临很大困难
无法找到一一个节点为中心的pattern来对每个节点适用，因为节点的度分布(Degree Distribution)差异很大。

【扩展】：
度（degree）是指网络（图）中一个点的与其他点的连接数量，度分布（Degree Distribution）就是整个网络中，各个点的度数量的概率分布。一般来说，度分布服从幂律分布（或叫重尾分布）
在这里插入图片描述
早期的工作围绕两个方面：

如何定义图上的卷积
如何定义图上的池化（Pooling）

二、卷积

2.1 卷积的定义

卷积是对两个函数( $f$ 和 $g$ )的数学运算，产生第三个函数( $h$ )， $h$ 为 $g$ 和 $f$ 做点积后的积分，其公式如下：
连续函数：
$h(t)=(f*g)(t)=\int{f(t)g(t-\tau )}d\tau$
在这里插入图片描述

离散函数：
$h(x,y)=(f*g)(x,y)=\sum\limits_{m,n}{f(x-m,y-n)g(m,n)}$
在这里插入图片描述

卷积是一种积分，得到比原来更平滑的表示
卷积的结果是对原来信号的处理

2.2 现有定义卷积的方法

2.2.1 谱方法（Spectral methods）

谱方法：在谱域定义卷积。

卷积是通过图傅里叶变换和卷积定理定义的。
主要的挑战是在谱域定义的卷积滤波器不能在顶点域定位。

先把图上的信号变换到谱域，在谱域实现卷积的定义，再变换到空间域。

2.2.2 空间方法（Spatial methods）

空间方法：在顶点域定义卷积。

卷积定义为对目标顶点邻域内所有顶点的加权平均函数。
主要的挑战是，每个节点的邻居大小不一样，例如幂律度分布，实现参数共享面临比较困难。

三、谱方法

3.1 谱方法定义

给定一个Graph $G = (V, E, W)$
- V是节点集合， $E$ 是边的集合， $W\in {{R}^{n\times n}}$ 是带权邻接矩阵
- 每个节点具有 $d$ 维特征， $X\in {{R}^{n\times d}}$ 是节点的特征矩阵， $X$ 的每一列都是定义在节点上的一个信号
图的拉普拉斯，拉普拉斯矩阵定义了图上的导数，导数刻画了信号在图上的平滑程度
- $L = D - W$ ，其中 $L$ 是Laplacian 矩阵， $D$ 是顶点的度矩阵(对角矩阵)， ${{D}_{ii}}={{\Sigma }_{j}}{{W}_{ij}}$ ，对角线上元素依次为各个顶点的度， $W$ 是图的邻接矩阵。
- 归一化图拉普拉斯算子
  $L=I-{{D}^{-\frac{1}{2}}}W{{D}^{-\frac{1}{2}}}$ ， $I$ 是单位矩阵

3.2 图的傅里叶变换

把图上的信号变换到谱域，在谱域实现变化后再转换回来，通俗解释，每个图上有 $n$ 个节点，每个节点有1个取值，那么图上的信号就是一个 $n$ 维向量， $n$ 维向量需要变换到新的域，需要一个 $n$ 个特征向量的正交基（拉普拉斯向量），所作的变化就是把一个信号投影到这个 $n$ 维正交基。

对于信号 $X\in {{R}^{n}}$ ，傅里叶变换定义为
$\hat{x}={{U}^{T}}x$
傅里叶逆变换定义为：
$x=U\hat{x}$

3.3 定义谱域的卷积

卷积定理
两个信号的卷积相当于它们的傅里叶变换后的点积

图卷积
根据卷积定理，给定一个信号 $x$ 作为输入，另一个信号 $y$ 作为滤波器，图卷积 $* G$ 可以写成
$x(*G)y=U(({{U}^{T}}x)\odot ({{U}^{T}}y))$
这里，频谱域的卷积滤波器是 ${U}^{T}y$ 。

谱域的图卷积
令 ${{U}^{T}}y={{[{{\theta }_{0}},...,{{\theta }_{n-1}}]}^{T}}$ ，并且 ${{g}_{\theta }}=diag([{{\theta }_{0}},...,{{\theta }_{n-1}}])$ ，代入上式可以写成：

在这里插入图片描述第一步：把输入信号 $x$ 投影到谱域，即 ${U}^{T}x$ ；
第二步：对变换后的信号做卷积。实现变换；
第三步：做傅里叶逆变换转回节点域。

将信号扩展至 $f_{k+1}$ 维
在这里插入图片描述

J. Bruna, W. Zaremba, A. Szlam, and Y. LeCun. Spectral networks and locally connected networks on graphs. ICLR, 2014.

3.4 谱域图卷积的缺点

依赖拉普拉斯矩阵的特征分解（ eigen-decomposition ）
高计算成本
在顶点域未局部化（节点的领域来自所有节点而不是它周围的节点）

3.5 谱域卷积的改进：ChebyNet-参数化过滤器

将原来自由参数的对角矩阵变换成由拉普拉斯的特征值对应的对角阵（多项式函数）
通过多项式逼近参数化卷积滤波器
在这里插入图片描述
代入到图卷积公式可得：

优点：

自由参数的数目由 $n$ 减少到 $K$ ；
不需要显示地依赖 $U$ ，即不需要做特征分解，只需要知道 $L$ 就行了，因为 $L$ 是稀疏的，可以降低复杂度；
L也是局部化的。

M. Defferrard, X. Bresson, P. Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. NeuraIPS, 2016

四、图小波神经网络（ICLR 2019)

ChebyNet是将图滤波器空间约束为特征值矩阵的多项式函数 $\Lambda$ 来实现局部卷积：
${{g}_{\theta }}(\Lambda )=\sum\limits_{k=0}^{K-1}{{{\theta }_{k}}}{{\Lambda }^{k}}$

图小波神经网络重点研究了利用傅里叶基实现局部图卷积的方法。

用小波基代替傅里叶基(换 $U$ )。

4.1 Fourier vs. Wavelet

傅里叶变换：正弦波
小波变换：局部有信号的波
在这里插入图片描述

4.2 图小波神经网络定义

用图小波变换代替图傅里叶变换
在这里插入图片描述

4.2.1 Graph convolution via wavelet transform

换基操作并没有改变图神经网络的结构
在这里插入图片描述
图小波神经网络

参数复杂度太大，为 $o (n * p * q)$

4.2.2 图小波神经网络的改进

从特征变换中分离出图卷积，即卷积操作和节点特征变换分开进行，从而减少参数个数
在这里插入图片描述

五、空间方法

5.1 用类推的方法

卷积的三个步骤：

选定一个节点确定其领域，需要满足平移不变性
给领域节点排序编号
参数共享

在图上类比卷积神经网络

对于每个节点，根据一定的邻近度量，选择固定数量的节点作为其邻近节点
根据接近度度量排序
选择固定大小的窗口进行参数共享

M. Niepert, M. Ahmed, K. Kutzkov. Learning Convolutional Neural Networks for Graphs. ICML, 2016.

5.2 GraphSAGE

随机选择固定个数的邻居（随机行走）
聚合邻居

图神经网络的一般框架:
通过聚合相邻节点的信息来更新中心节点的表示

W. L. Hamilton, R. Ying, J. Leskovec. Inductive Representation Learning on Large Graphs. NeuraIPS 2017

5.3 GCN: Graph Convolution Network

通过标准化拉普拉斯矩阵从邻域聚集信息
来自特征转换的参数共享
是一个简化版的ChebNet

T. N. Kipf, and M. Welling. Semi-supervised classification with graph convolutional networks. ICLR 2017

在这里插入图片描述这里的 $W$ 只是特征变换，已经失去了卷积的基本思想

5.4 GAT: Graph Attention Network

加上了卷积，通过注意机制学习聚合矩阵，即GCN中的拉普拉斯矩阵
共享参数包含两部分

特征转换参数 $W$
注意力参数 $a$ ，可看作卷积的卷积核

在这里插入图片描述每个节点和它邻居节点的特征变换之后combine，送入attention机制，得到权重。

5.5 MoNet

更一般的空间方法：

定义多个核函数，参数化或非参数化，以衡量目标节点与其他节点之间的相似性
卷积核是这些核函数的权值

核函数在谱方法里面是谱变换的基，在空间方法里是选择节点令居的方法。
在这里插入图片描述

F. Monti, D. Boscaini, J. Masci, E. Rodola, J. Svoboda, M. M. Bronstein. Geometric deep learning on graphs and manifolds using mixture model CNNs. CVPR 2017.

六、利用Heat Kernel进行半监督学习的图卷积网络

6.1 谱方法vs.空间方法

6.1.1 联系

谱方法是空间方法的特例。

在这里插入图片描述

6.1.2 区别

谱方法：需要显式地定义卷积核，即需要知道节点投影的谱空间，例如傅里叶变换，投影到的是拉普拉斯矩阵展开的空间。
空间方法：不需要显式地定义，直接定义内核函数

6.2 谱方法:回顾

Spectral CNN
$y=U{{g}_{\theta }}{{U}^{T}}x=({{\theta }_{1}}{{u}_{1}}u_{1}^{T}+{{\theta }_{2}}{{u}_{2}}u_{2}^{T}+...+{{\theta }_{n}}{{u}_{n}}u_{n}^{T})x$
核： ${{u}_{1}}u_{1}^{T},...,{{u}_{n}}u_{n}^{T}$
核参数： ${{\theta }_{1}},...,{{\theta }_{n}}$
ChebNet
$y=({{\theta }_{0}}I+{{\theta }_{1}}L+{{\theta }_{2}}{{L}^{2}}+...+{{\theta }_{K-1}}{{L}^{K-1}})x$
GCN
$y=\theta (I-L)x$

为什么参数较少的GCN性能优于ChebyNet?

6.3 图信号处理:滤波器

6.3.1 平滑程度

一个信号的平滑度是由特征向量的特征值决定的:
${{x}^{T}}Lx=\sum\limits_{(u,v)\in E}{{{A}_{uv}}}{{(\frac{{{x}_{u}}}{\sqrt{{{d}_{u}}}}-\frac{{{x}_{v}}}{\sqrt{{{d}_{v}}}})}^{2}}$

${{\lambda }_{i}}=u_{i}^{T}L{{u}_{i}}$ 可以视为 $u_i$ 的频率

6.3.2 滤波器

${u}_{i}{u_{i}^{T}}$ 是一组基本的过滤器
对于一个图信号 $x$ ，滤波器只允许频率为 ${\lambda }_i$ 的成分通过

6.3.3 组合滤波器:高通和低通

组合滤波器

基本滤波器的线性组合
${{\theta }_{1}}{{u}_{1}}u_{1}^{T}+{{\theta }_{2}}{{u}_{2}}u_{2}^{T}+...+{{\theta }_{n}}{{u}_{n}}u_{n}^{T}$
$L^k$ 是带系数 $\{\lambda _{i}^{k}\}_{i=1}^{n}$ 的组合滤波器，ChebyNet方法中，频率越高， $\lambda$ 越大，赋的权重越大。
$L^k$ 给高频信号分配高权重，是一个高通滤波器。

GCN
GCN只考虑 $k = 0$ 和 $k = 1$ ，避免高频基本滤波器的boosting效应:

表现为一个低通组合滤波器
解释了为什么GCN比ChebyNet表现更好

6.4 GraphHeat

6.4.1 低通组合过滤器

{ $e^{-skL}$ }，其中 $s$ 是缩放参数， $k$ 是阶层
{ $e^{-sL}$ }是图中的heat kernel，通过图上的热扩散来定义节点之间的相似性
${{e}^{-sL}}=U{{e}^{-s\Lambda }}{{U}^{T}},\Lambda =diag({{\lambda }_{1}},{{\lambda }_{2}},...,{{\lambda }_{n}})$
-带系数 ${e^{-s\lambda_i}}$ 的基础滤波器 ${{u}_{i}}u_{i}^{T}(1\le i\le n)$ 用来抑制高频信号

6.4.2 GraphHeat vs. 基线方法

信号滤波的角度：

谱方法：均匀（uniform）滤波器
ChebyNet是一个高通滤波器
GCN是对ChebyNet的低阶近似
GraphHeat是一个低通滤波器

选择邻居的角度：
GCN和ChebyNet根据距离中心节点的跳数来确定邻域，即顺序式
不同颜色的节点
GraphHeat根据图上的热扩散相似性函数来确定邻域
不同圈内的节点

七、Graph Pooling

7.1 图粗化（Graph coarsening）

将节点聚类，将每个类作为超节点，再将超节点合并，逐步缩小图的大小
在这里插入图片描述 - 节点合并可以事先进行，也可以在图卷积神经网络的训练过程中进行，例如：DiffPooling

Ying, R., You, J., Morris, C., Ren, X., Hamilton, W. L., and Leskovec, J. Hierarchical graph representation learning with differentiable pooling, NeuraIPS 2018