图神经网络之CNN与GCN的联系

最新推荐文章于 2024-04-10 12:37:52 发布

前端的一只小白

最新推荐文章于 2024-04-10 12:37:52 发布

阅读量1.6k

点赞数

分类专栏：神经网络卷积神经网络文章标签：神经网络卷积神经网络推荐算法大数据 Powered by 金山文档

本文链接：https://blog.csdn.net/JxiaoZhang/article/details/129587687

版权

神经网络同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

卷积神经网络

1 篇文章 0 订阅

订阅专栏

一、CNN（Convolutional Neural Network）卷积神经网络

神经网络是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）结构和功能的数学模型或计算模型，其是由大量的人工神经元组成，按不同的连接方式构建不同的网络。CNN是其中的一种，还有GAN(生成对抗网络)，RNN（递归神经网络）等，神经网络能够类似人一样具有简单的决定能力和判断能力，在图像和语音识别方面能够给出更好的结果。CNN是近年来深度学习能在计算机视觉领域取得突破性成果的基石,逐渐在被其他诸如自然语言处理、推荐系统和语音识别等领域广泛使用。主要从两个方面介绍CNN：（1）CNN简单介绍（2）CNN特征

（1）CNN简单介绍

随着人工智能的普及，图像处理越来越成为一个难题，主要面临两个挑战：1.图像需要处理的数据量很大，导致成本高效率低；2.图像在数字化过程中可能会出现信息丢失；面对着两个挑战，CNN要解决的第一个挑战是"将复杂问题简化"，把大量参数降维成少量参数再做处理；第二个挑战卷积神经网络处理图像是用类似视觉的方式保留图像的特征，当图像做翻转、旋转或者变换位置时，它也能有效的识别出来是类似的图像。

CNN的结构可以分为3层：

输入层：可以处理多维数据，一维卷积神经网络（为时间或频谱采样）的输入层接收一维或二维数组（可能包含多个通道）；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。与其它神经网络算法类似，由于使用梯度下降算法进行学习，卷积神经网络的输入特征需要进行标准化处理。

隐含层：包含以下三类构筑

卷积层(Convolutional Layer)：提取特征

池化层(Max Pooling Layer)：下采样但不会破坏识别结果

全连接层(Fully Connected Layer)：分类

输出层：上游通常是全连接层，因此其结构和工作原理与传统前馈神经网络中的输出层相同。

CNN实现图像识别的步骤：

输入层读入经过规则化（统一大小）的图像，每一层的每个神经元将前一层的一组小的局部近邻的单元作为输入，也就是局部感受野和权值共享，神经元抽取一些基本的视觉特征，比如边缘、角点等，这些特征之后会被更高层的神经元所使用。

局部感受野：由于图像的空间联系是局部的，每个神经元不需要对全部的图像做感受，只需要感受局部特征即可，然后在更高层将这些感受得到的不同的局部神经元综合起来就可以得到全局的信息了，这样可以减少连接的数目。

权值共享：不同神经元之间的参数共享可以减少需要求解的参数，使用多种滤波器去卷积图像就会得到多种特征映射。权值共享其实就是对图像用同样的卷积核进行卷积操作，也就意味着第一个隐藏层的所有神经元所能检测到处于图像不同位置的完全相同的特征。其主要的能力就能检测到不同位置的同一类型特征，也就是卷积网络能很好的适应图像的小范围的平移性，即有较好的平移不变性（比如将输入图像的猫的位置移动之后，同样能够检测到猫的图像）

卷积神经网络通过卷积操作获得特征图，每个位置，来自不同特征图的单元得到各自不同类型的特征。一个卷积层中通常包含多个具有不同权值向量的特征图，使得能够保留图像更丰富的特征。

卷积层后边会连接池化层进行降采样操作，一方面可以降低图像的分辨率，减少参数量，另一方面可以获得平移和形变的鲁棒性。

卷积层和池化层的交替分布，使得特征图的数目逐步增多，而且分辨率逐渐降低，是一个双金字塔结构。

总的来说，CNN（卷积神经网络）本质上是一个多层感知机，其成功的原因关键在于它所采用的局部连接和共享权值的方式，一方面减少了的权值的数量使得网络易于优化，另一方面降低了过拟合的风险。CNN在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。卷积网络执行的是监督训练，所以其样本集是由形如：**（输入向量，理想输出向量）**的向量对构成的。所有这些向量对，都应该是来源于网络即将模拟系统的实际“运行”结构，它们可以是从实际运行系统中采集来。

（2）CNN特征

具有一些传统技术所没有的优点：良好的容错能力、并行处理能力和自学习能力。可处理环境信息复杂，背景知识不清楚，推理规则不明确情况下的问题，允许样品有较大的缺损、畸变，运行速度快，自适应性能好，具有较高的分辨率。它是通过结构重组和减少权值将特征抽取功能融合进多层感知器，省略识别前复杂的图像特征抽取过程。

泛化能力要显著优于其它方法，卷积神经网络已被应用于模式分类，物体检测和物体识别等方面。利用卷积神经网络建立模式分类器，将卷积神经网络作为通用的模式分类器，直接用于灰度图像。

是一个前溃式神经网络，能从一个二维图像中提取其拓扑结构，采用反向传播算法来优化网络结构，求解网络中的未知参数。

CNN被认为是第一个真正成功的采用多层层次结构网络的具有鲁棒性的深度学习方法。CNN通过挖掘数据中的空间上的相关性，来减少网络中的可训练参数的数量，达到改进前向传播网络的反向传播算法效率，因为CNN需要非常少的数据预处理工作，所以也被认为是一种深度学习的方法。在CNN中，图像中的小块区域（也叫做“局部感知区域”）被当做层次结构中的底层的输入数据，信息通过前向传播经过网络中的各个层，在每一层中都由过滤器构成，以便能够获得观测数据的一些显著特征。因为局部感知区域能够获得一些基础的特征，比如图像中的边界和角落等，这种方法能够提供一定程度对位移、拉伸和旋转的相对不变性。

CNN中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解，并且能够自动的从图像抽取出丰富的相关特性。

CNN通过结合局部感知区域、共享权重、空间或者时间上的降采样来充分利用数据本身包含的局部性等特征，优化网络结构，并且保证一定程度上的位移和变形的不变性。

CNN是一种深度的监督学习下的机器学习模型，具有极强的适应性，善于挖掘数据局部特征，提取全局训练特征和分类，它的权值共享结构网络使之更类似于生物神经网络，在模式识别各个领域都取得了很好的成果。

CNN可以用来识别位移、缩放及其它形式扭曲不变性的二维或三维图像。CNN的特征提取层参数是通过训练数据学习得到的，所以其避免了人工特征提取，而是从训练数据中进行学习；其次同一特征图的神经元共享权值，减少了网络参数，这也是卷积网络相对于全连接网络的一大优势。共享局部权值这一特殊结构更接近于真实的生物神经网络使CNN在图像处理、语音识别领域有着独特的优越性，另一方面权值共享同时降低了网络的复杂性，且多维输入信号（语音、图像）可以直接输入网络的特点避免了特征提取和分类过程中数据重排的过程。

CNN的分类模型与传统模型的不同点在于其可以直接将一幅二维图像输入模型中，接着在输出端即给出分类结果。其优势在于不需复杂的预处理，将特征抽取，模式分类完全放入一个黑匣子中，通过不断的优化来获得网络所需参数，在输出层给出所需分类，网络核心就是网络的结构设计与网络的求解。这种求解结构比以往多种算法性能更高。

隐层的参数个数和隐层的神经元个数无关，只和滤波器的大小和滤波器种类的多少有关。隐层的神经元个数,它和原图像，也就是输入的大小（神经元个数）、滤波器的大小和滤波器在图像中的滑动步长都有关。

卷积神经网络相比一般神经网络在图像理解中的优点：

网络结构能够较好的适应图像的结构

同时进行特征提取和分类，使得特征提取有助于特征分类

权值共享可以减少网络的训练参数，使得神经网络结构变得简单，适应性更强

二、GCN（Gateway Connection Network）图神经网络

GCN背景介绍

CNN中的卷积本质上就是利用一个共享参数的过滤器（kernel），通过计算中心像素点以及相邻像素点的加权和来构成feature map实现空间特征的提取，当然加权系数(随机化初值)就是卷积核的权重系数。GCN卷积核的参数通过优化求出才能实现特征提取的作用，GCN的理论很大一部分工作就是为了引入可以优化的卷积参数。CNN是Computer Vision里的大法宝，其优势在上面已经分析过了，可以很有效地提取空间特征。但是有一点需要注意：CNN处理的图像或者视频数据中像素点（pixel）是排列成成很整齐的矩阵（如下图所示，也就是很多论文中所提到的Euclidean Structure）。

图像矩阵示意图（Euclidean Structure）

首先介绍一下研究GCN的背景：

(1)CNN无法直接处理Non Euclidean Structure的数据。通俗理解就是在拓扑图中每个顶点的相邻顶点数目都可能不同，那么当然无法用一个同样尺寸的卷积核来进行卷积运算。

(2)由于CNN无法处理Non Euclidean Structure的数据，又希望在这样的数据结构（拓扑图）上有效地提取空间特征来进行机器学习，所以GCN成为了研究的重点。

(3)读到这里大家可能会想，自己的研究问题中没有拓扑结构的网络，那是不是根本就不会用到GCN呢？其实不然，广义上来讲任何数据在赋范空间内都可以建立拓扑关联，谱聚类就是应用了这样的思想（谱聚类（spectral clustering）原理总结）。所以说拓扑连接是一种广义的数据结构，GCN有很大的应用空间。

综上所述，GCN是要为除CV、NLP之外的任务提供一种处理、研究的模型。

GCN公式以及模型

GCN，图卷积神经网络，实际上跟CNN的作用一样，就是一个特征提取器，只不过它的对象是图数据。GCN精妙地设计了一种从图数据中提取特征的方法，从而让我们可以使用这些特征去对图数据进行节点分类（node classification）、图分类（graph classification）、边预测（link prediction），还可以顺便得到图的嵌入表示（graph embedding），可见用途广泛。假设有一个图结构，图中有N个节点（node），每个节点都有自己的特征，我们设这些节点的特征组成一个N×D维的矩阵X，然后各个节点之间的关系也会形成一个N×N维的矩阵A，称为邻接矩阵（adjacency matrix）。X和A便是我们模型的输入。

核心公式为：

模型：

关于模型的介绍可以参考原作者。或者翻译博客。

三、CNN与GCN的差异

从本质上看，二者都是聚合邻域信息的运算，只是作用的数据对象不同。下面我们将更加细致地总结出二者间的几点区别与联系（见下图）。

图像是一种特殊的图数据

CNN中的卷积计算相较于GCN中的卷积计算买最大的区别是没有显式地表达出邻接矩阵，但是进行实际计算的时候，我们依然需要考虑数据之间的结构关系。如果我们将图像中的每个像素视作一个节点，那么在常见的比如3×3大小的卷积核作用下，可以将中心节点附近3×3的栅格内的像素等价为自己的邻居。从这个角度来看，我们将像素视作节点，将像素之间空间坐标的连线作为彼此之间的边，如此图像数据就变成了一种结构非常规则的图数据，CNN中的卷积计算则是用来处理这类固定2D栅格的图数据。相较之下，一般提到图数据，往往单个节点附近的邻域结构是千差万别的，数据之间的关系也较为复杂多样，GCN中的卷积计算则是用来处理更普遍的非结构化的图数据的。

从网络连接方式来看，二者都是局部连接

从单个节点的运算过程来看，GCN的计算为：∑vj∈N(vi)wxj，计算作用在其一阶子图上；CNN的计算为：∑vj∈[−4,4]wjxi+j，计算作用在中心像素附近3×3的栅格内，这种节点下一层的特征计算只依赖于自身邻域的方式，在网络连接上表现为一种局部连接的结构。相较于全连接结构，局部连接大大减少了单层网络的计算复杂度。不过在权重设置上二者有一定的区别，由于图像数据中固定的山歌结构，CNN的卷积核设计了9组权重参数，而为了适应不同的图数据结构，GCN的卷积权重参数退化为一组，从图2-1中可以直观地看出这一差别。从拟合能力上来讲，CNN是更有优势的。

二者卷积核的权重是处处共享的

与CNN一样，GCN中的卷积核也作用于全图所有的节点，在每个节点出的计算中权重参数都是共享的，这样的处理方式大大减少了单层网络的参数量，可以有效避免过拟合现象的出现。

从模型的层面来看，感受域随着卷积层的增加而变大

每多一层卷积计算，中心节点就能多融合进更外一“圈”的信息。如图2-2所示，在CNN中，中心的感受域从第一层的3 × 3 3×33×3，到第二层的5 × 5 5×55×5，在不断地扩大。在GCN中，中心节点可以融合的信息从一阶邻居拓展到二阶邻居，二者的感受域都随着卷积层的增大而变大。同时，我们可以看到，在这两类模型中，节点自身特征的更新时域卷积运算强耦合在一起的，每一个新卷积层的加入，都可以使节点获得更加抽象化的特征表示。