卷积神经网络流程图_图神经网络入门级总结

最新推荐文章于 2024-07-12 11:45:29 发布

weixin_39678103

最新推荐文章于 2024-07-12 11:45:29 发布

阅读量1.5k

点赞数

文章标签：卷积神经网络流程图

1. 图神经网络由来

标题：SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS

地址：http://arxiv.org/abs/1904.03751

1.1 欧式空间与非欧式空间数据

图网络的提出和处理非欧式空间数据息息相关，对于传统的欧式空间数据（如：图像数据等），由于其数据的'规则性'，常见的诸如CNN的网络方法已经可以很好的处理这类数据（注：欧式空间通俗的讲其实就是常见的n维空间，比如2维3维直角坐标系）。但是对于社交网络，交通网络这种非欧式空间数据，以前的一些方法就显得比较鸡肋...

1.2 半监督学习

文章从非欧式空间的数据集出发，以半监督节点分类为例，在一些Citation Network等数据集(Citeseer, Cora)上进行了测试。

1.3 GCN原理

假设一个无向图图有

个节点，每个节点都有

维的特征。图的邻接矩阵记为

，节点的特征组成的

维矩阵记为

。那么对于GCN网络而言，层与层之间的传播可以用如下公式表示:

其中

为第

层图的特征，对于第一层网络的输入有
，

是单位矩阵。
是

的度(degree)矩阵，

，也即度矩阵在对角线上存储

的度，其他位置为0.
为激活函数
为第

层的网络权值，该层仅起到特征映射的作用。

至于为何这样子定义公式，其实作者的论文中，最简化版本的公式长得是这个样子：

其中

就是我们之前说的邻接矩阵，作者的实验表示这个网络在半监督学习数据集下已经很强了。但是存在以下几个缺陷：

的对角线为0，这样下一层节点特征相当于其邻居特征之和，该节点自己的特征没有加入计算中，因此作者使用了

使得对角线元素变为1
没有经过归一化，这样相当于直接对自己和邻居进行特征求和，会改变数据分布，因此要对

进行归一化处理，使得每一行加起来都为1。处理方式：

，其中

为

的度矩阵。

1.4 训练方式

仅利用标签的节点计算交叉熵损失函数:

补充

GCN在有关图网络的数据集中表现好的原因在于它对数据进行了平滑，也即让相邻节点间的特征尽可能类似。

2. GraphSAGE—从Transductive到Inductive

标题：Inductive Representation Learning on Large Graphs

地址：https://arxiv.org/abs/1706.02216

2.1 Inductive Learning 与 Transductive Learning 区别?

实际上我们平时所说的learning一般指的是inductive learning。
考虑普通学习问题，训练集为
，测试（未标记）

，众所周知，

不会出现在训练集中。这种情况就是inductive learning。

半监督学习的情况，训练集为
，测试

，此时，

与

都是未标记的，但我们测试的

在训练时没有见过，这种情况是 inductive semi-supervised learning。

如果我们在训练的时候我们已经见过
，或者说利用了

的特征信息（可以认为

），这时就叫transductive semi-supervised learning。

简单来说，transductive和inductive的区别在于我们想要预测的样本，是不是我们在训练的候已经见（用）过的。
通常transductive比inductive的效果要好，因为inductive需要从训练generalize到测试。
引自： https://www. zhihu.com/question/6827 5921/answer/529156908

2.2 为什么说GCN是Transductive的？

再看下GCN的公式：

开山之作中的GCN是基于固定的图做的计算，在提出时仅考虑了固定的图，在训练时也是在固定的图上进行的训练。

若图是变动的，比如突然加入一个顶点进来，就会导致前面计算的归一化矩阵整体变动。

这时如果非要强行进行预测，需要重新计算归一化矩阵，这样也会加大计算量导致难以进行新节点的预测。此外，由于归一化矩阵已经整体变动，再次前向传播后的节点embedding和之前会有一定的偏移，故预测效果不会很好。

因此GCN对于大规模的图数据集其可拓展性是很低的，这样我们想要的 inductive learning 就变成了 transductive learning. 所以说，归一化矩阵是导致Transductive的根源。

2.3 GraphSAGE算法流程

GraphSAGE对于GCN主要的改进是，他将GCN传播的步骤拆分出了

函数。在训练GrapgSAGE时，只需要学习

函数即可实现

。

GraphSAGE与原本的GCN在训练方式上也有很大的不同。原本的GCN是将整个图放进网络中进行训练，即batch size等于数据集所有节点数目。而GraphSAGE可以节点为单位进行训练(mini batch方式)，batch size就是batch所包含的节点数量，测试时将测试集节点放进网络进行预测即可。

先给出算法流程(

全图节点数目)：

其实跟GCN一样，对每层图而言，该层都是由上一层图的特征计算得到，更改的只是其计算方式。此处添加了

函数的概念。

此外还给出了mini batch的训练方式：

2.4 可选用的Aggregate函数

Mean Aggregator
该Aggregator其实就是将当前节点与其邻居节点计算 elementwise mean，然后将等到的特征进行映射再使用激活函数。
其中，

表示层数，

表示当前节点，

表示节点

的邻居节点集合。
LSTM aggregator
其实就是将邻居节点的随机打乱输入到LSTM中进行提取特征。