Lecture 4_Extra Graph Neural Networks

最新推荐文章于 2024-09-05 15:28:05 发布

Yi_cAt

最新推荐文章于 2024-09-05 15:28:05 发布

阅读量1k

点赞数

分类专栏： 2022 Spring 李宏毅ML 文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/Yi_cAt/article/details/126974010

版权

2022 Spring 李宏毅ML 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Lecture 4_Extra Graph Neural Networks

文章目录

GNN

Introduction

Neural Network

CNN

https://arxiv.org/pdf/1512.03385.pdf

RNN

Transformer

https://arxiv.org/pdf/1706.03762.pdf

http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2019/Lecture/Transformer%20(v5).pdf

Graph

GNN

Why do we need GNN?

Classification

https://persagen.com/files/misc/scarselli2009graph.pdf

训练一个分类器，来识别某一分子是否会导致突变。

Generation

GraphVAE: https://arxiv.org/pdf/1802.03480.pdf

生成新药物的分子。

How do we utilize the structures and relationship to help our model?
What if the graph is larger, like 20k nodes?
What if we don’t have the all the labels?

Example

如上图所示，图中有两种 Node，在一些场景中，Unlabeled Node 的数量远大于 Labeled Node。在这种情况下，如何利用少数的 Labeled Node 以及周围邻居 structure 信息做一个好的 Node Representation，来训练从好的模型呢？

How to train a GNN?

Think about Convolution

如上左图所示，对于绿色和黄色区域，我们可以用 $k er n e l$ 去做相乘再相加的卷积操作，从而得到下一层的 $\text{feature map}$ 。如何把这种操作泛化到 graph 呢？也就是，也能够在 graph 上做相乘相加，再 $\text{weighted sum}$ 来完成一个类似的 “卷积” 操作。—— 好像不太容易。

How to embed node into a feature space using convolution?
Solution 1: Generalize the concept of convolution (co-relation) to graph >> Spatial-based convolution
Solution 2: Back to the definition of convolution in signal processing >> Spectral-based convolution

GNN Roadmap

Tasks, Dataset, and Benchmark

Tasks

Semi-supervised node classification
Regression
Graph classification
Graph representation learning
Link prediction

Common Datasets

CORA: citation network. 2.7k nodes and 5.4k links
TU-MUTAG: 188 molecules with 18 nodes on average

Benchmark

Graph Classification: SuperPixel MNIST and CIFAR10

Regression: ZINC molecule graphs dataset

Node classification: Stochastic Block Model dataset

1711.07553.pdf (arxiv.org)

Edge classification: Traveling Salesman Problem

Results

SuperPixel

Regression

Stochastic Block Model dataset

Traveling Salesman Problem

Spatial-based GNN

Review: Convolution

Spatial-based Convolution

假设 input graph 如上左图所示，图中每个 node 都有一个 hidden feature $h_i^0$ 。我们希望通过一个 $co n v o l u t i o n$ 操作来得到下一层各个 node 的 hidden feature $h_i^1$ 。以 $h_3$ 为例介绍这一过程， $h_3^0$ 有 $3$ 个邻居 $h_0^0,\ h_2^0,\ h_4^0$ ， $h_3^1$ 将由这 $3$ 个邻居间的计算得到，这一过程叫做 $a gg re g a t i o n$ ，也就是利用邻居的 hidden feature 来得到下一层的 hidden state。

有时候我们需要得到一整个图的表示（而不是只学习各个 node 的 hidden feature），将所有 node 集合起来代表整个 graph 的操作叫做 $re a d o u t$ ，进而可以做整个图的分类或者预测任务。

NN4G (Neural Networks for Graph)

Neural Network for Graphs: A Contextual Constructive Approach

上图说明了 NN4G 做 $a gg re g a t i o n$ 操作的过程。输入一个 graph，做一个类似于 $e mb e dd in g$ 的操作（ $e.g.,\ h_3^0=\bar w_0 \cdot x_3$ ）得到各 node 的 hidden feature。 $a gg re g a t i o n$ 操作，以 $h_3$ 为例， $h_3^1=\hat w_{1,0}(h_0^0+h_2^0+h_4^0)+\bar w_1 \cdot x_3$ 。

上图说明了 NN4G 做 $re a d o u t$ 的过程。求各个 hidden layer 的 hidden feature 的均值 $X$ ，最后做一个 $weighted\ sum$ 得到整个图的表示。

DCNN (Diffusion-Convolution Neural Network)

Diffusion-Convolutional Neural Networks (arxiv.org)

上图说明了 DCNN 在各层计算 hidden feature 的做法。输入依旧是一个 graph，以 $h_3$ 为例。在 hidden layer 1， $h_3^0=w_3^0 MEAN(d(3,\cdot)=1)$ ，也就是 $h_3^0$ 由所有距离 node_3 长度为 $1$ 的结点算均值后再 $weighted\ transform$ 得到。 $h_3^1$ 也类似可得，只是考虑所有距离 node_3 长度为 $2$ 的结点。

如下图所示，将每层 hidden layer 中的 hidden feature 拼接成一个矩阵 $\bf H$ ，将这些矩阵 $\bf H$ 堆叠起来。如果需要做 Node Classification 的任务，我们只需要取特定的一个 $s l i ce$ 就能够获得该 node 在各层的 hidden feature，再通过 $weighted\ transform$ 得到预测的标签。

DGC (Diffusion Graph Convolution)

1707.01926.pdf (arxiv.org) Published as a conference paper in ICLR 2018.

这篇文章没有将矩阵 $\bf H$ 堆叠起来，而是将各层的矩阵 $\bf H$ 进行相加。

MoNET (Mixture Model Networks)

1611.08402.pdf (arxiv.org)

如上图所示，MoNET 设计了一个新的结点间的距离函数： ${\bf u}={(\frac{1}{\sqrt {deg(x)}},\ \frac{1}{\sqrt {deg(y)}})}^{\rm T}$ ，度量结点间的距离与两结点的度有关。更新 hidden feature 的方式依旧是对邻居结点做 $weighted\ sum$ 。

GraphSAGE

1706.02216.pdf (arxiv.org)

GraphSAGE 做 $a gg re g a t i o n$ 的方式有三种： $mean,\ pooling,\ LSTM$ 。

GAT (Graph Attention Networks)

1710.10903.pdf (arxiv.org) Published as a conference paper at ICLR 2018.

如上图所示，是 GAT 更新 hidden feature 的做法。首先，计算待更新结点 $h_3^0$ 与其邻居结点的 $e n er g y$ 值 $e_{3,i}$ ，从而 $h_3^1=e_{3,0}\cdot h_0^0+e_{3,2}\cdot h_2^0+e_{3,4}\cdot h_4^0$ ，相当于 $a gg re g a t i o n$ 操作中的 $weighted\ sum$ 需要学习其中的权重。

GIN (Graph Isomorphism Network)

Graph Signal Processing and Spectral-based GNN

Spectral-based CNN

对输入、Filter 和每层的 graph 都做 $\text{fourier transform}$ 以达到类似于卷积的效果。

Spectral Graph Theory

Example

Vertex domain signal

注：由于本人没有学过《信号与系统》，所以以下的内容可能会存在许多错误。（希望有大佬能指出）

如上图所示，graph 中各个 node 的信号大小由 $f$ 给出。那么我们可以得到该 graph 的 adjacency matrix $\bf A$ ，degree matrix $\bf D$ ，进而得到 Laplacian $\bf L=D-A$ （一个半正定 positive semidefinite 矩阵），继续算出 $\bf L$ 的特征值（频率 frequency）矩阵 $\bf \Lambda$ 及特征向量组成的矩阵 $\bf U$ 。

如上图所示，当频率（特征值）分别取 $0,\ 1,\ 3,\ 4$ 时，各结点的信号强度（用橘黄色标出）。

接下来，我们来尝试理解 vertex frequency：

① 我们可以把 Laplacian $\bf L=D-A$ 看作作用在图上的一个算子；

② 给定图中的信号 $f$ ， ${\bf L}f$ 代表着什么呢？

③ 简单的数学变换， ${\bf L}f=({\bf D-A})f={\bf D}f-{\bf A}f$ ；

④ 分别写出各结点的 degree matrix $\bf D$ ，adjacency matrix $\bf A$ ，假设 $f={[4,2,4,-3]}^{\rm T},\ {\bf L}f={[a,b,c,d]}^{\rm T}$ ；

⑤ 关注 ${\bf L}f$ 的第一行，每个蓝圈圈出的数字，其含义如图所示。可以理解成度量某一信号跟他旁边结点的能量差异。

如下图所示，度量信号间能量的差异往往需要将这一差值取平方，进而可以进一步理解为度量图中信号的平滑程度。由 [Spectral Graph Theory](#Spectral Graph Theory)，频率越大，相邻两点之间的信号变化量就越大。 $f^{\rm T}{\bf L}f$ 代表了不同结点间信号变化量的能量。