背景:残差连接技术最初是在视觉领域中的深度卷积网络(如ResNet)中提出的,为了解决深层网络中常见的梯度消失问题。随着神经网络模型层数的增加,模型的表达能力虽然增强,但同时训练难度也显著增加,尤其是梯度在反向传播过程中的衰减问题。残差连接通过引入一种“捷径”或“跳跃”连接,使得信息和梯度能够在网络中更有效地流动。
近几年,随着图神经网络(GNN)的兴起,研究人员发现深层的GNN同样面临类似的梯度消失、过平滑问题。由于图数据的结构复杂性和不规则性,标准的网络层叠加方式很容易导致信号在多层传播过程中衰减。因此,有人把残差连接被引入到GNN中,以稳定训练过程并提升模型对深层图结构的学习能力(如GCNII 、H2GCN)。
一、什么是图神经网络(Graph Neural Networks,简称GNN)
图神经网络的处理对象是图这种数据结构,如社交网络、知识图谱、推荐系统等。
传统的神经网络(如卷积神经网络、循环神经网络等)处理对象是规则的数据结构,如图像、时间序列等。
图结构数据是一种由节点和边组成的复杂关系网络,其中节点代表实体,边代表实体之间的关系。与传统的神经网络不同,图神经网络需要考虑节点之间的关系,因此需要一种新的方式来表示节点和边。
二、图神经网络的基本概念
2.1图(Graph)
图是一种非常灵活的数据结构,用于模拟多种类型的关系和动态系统。主要由两个基本组成部分构成:顶点(Vertex)和边(Edge)。顶点代表实体,而边则代表实体之间的连接或关系。
图的类型分为无向图、有向图和带权图(边被赋予了权重)。
2.2邻接矩阵(Adjacency Matrix)
邻接矩阵 A 是一种表示图中顶点间关系的矩阵。设 V 为顶点集合,A 的大小为 |V|×|V|。对于无向图,A 的元素 A(i, j) = 1表示顶点 i 和顶点 j 相邻,即存在一条边;A(i, j) = 0 表示顶点 i 和顶点 j 不相邻。有向图的邻接矩阵表示有方向的边。 邻接矩阵可以用于表示图结构,同时也可以用于进行图算法的实现。通过邻接矩阵,我们可以快速地查询两个顶点之间是否存在边,以及边的类型和权重等信息。
例如:
用户1和用户2是好友
用户2和用户3是好友
用户3和用户4是好友
则邻接矩阵可表示为:
A = [[0, 1, 0, 0],
[1, 0, 1, 0],
[0, 1, 0, 1],
[0, 0, 1, 0]]
2.3图信号(Graph Signal)
图信号是定义在图的顶点上的数据,类似于传统信号处理中的信号。图信号可以理解为图中每个顶点的特征或属性,这些特征通常以矩阵形式表示,其中每行代表一个顶点,每列代表一个特征维度。对于一个顶点集合 V,图信号可以表示为一个 ∣V∣×d 的矩阵 X,其中∣V∣ 是顶点的数量,d 是特征维度。每个顶点的特征可以是标量(单一特征)或向量(多维特征)。
2.4图卷积(Graph Convolution)
图卷积的其中一个灵感来自CNN。在传统的卷积神经网络(CNN)中,卷积是用来处理欧几里德空间数据。而在图结构数据中,由于数据呈现为节点和边的形式,且拓扑结构可能非常复杂和不规则,因此需要一种特殊的卷积操作来处理这种非欧几里德空间数据。
图1 左图为欧几里德空间数据 右图为非欧几里德空间数据
图卷积的另一个灵感来自图嵌入(Graph Embedding),学习图中节点、边或子图的低维向量空间表示。基于表示学习和词嵌入的思想,图嵌入方法有DeepWalk、node2vec、LINE等。DeepWalk 是图嵌入领域的开创性工作,使用随机游走和自然语言处理中的 SkipGram 模型来学习节点的嵌入。通过随机游走,DeepWalk 能够捕捉到图中节点的邻域信息,并通过将游走序列视为“句子”来应用词嵌入方法,从而学习节点表示。node2vec 是在 DeepWalk 基础上的扩展,引入了两个参数控制随机游走的偏向性,即探索远邻节点和紧邻节点的平衡,可以更灵活地探索多样的节点邻域,生成更丰富的节点嵌入。LINE 设计了适用于大规模信息网络的嵌入方法。它考虑了一阶相似性(直接相连的节点)和二阶相似性(共享相同邻居的节点),以学习节点的低维表示。
图卷积通过节点间的连接关系(即图的拓扑结构)来聚合和更新节点的特征信息。这一过程能够帮助捕获和利用节点之间的依赖关系,有效地提取图中的结构性和关联性特征,提高了学习图的低维表示的效率。
下面解释图卷积操作的过程:
Ⅰ、邻接矩阵加自环,在图中引入自环,使得每个节点在聚合邻居信息时也能保留自身的信息。
Ⅱ、计算归一化邻接矩阵:对邻接矩阵进行归一化,以平衡不同度数的节点对信息聚合的贡献。
Ⅲ、线性变换:对每个节点的特征进行线性变换。
Ⅳ、邻居信息聚合:通过归一化邻接矩阵对邻居节点的信息进行聚合。
Ⅴ、激活函数:引入非线性激活函数,增强模型的表达能力。
卷积层的操作可以表示为:
H^(l+1) = ReLU(A_hat * H^(l) * W^(l))
举个例子,任务是对每个用户进行性别分类(男或女),输出层设计为全连接层+Softmax激活函数,用于输出每个用户的性别概率。
假设图卷积层的输出为:
H = [[0.5, -0.2],
[-0.3, 0.4],
[0.1, -0.1],
[-0.2, 0.3]]
其中,每一行表示一个用户的特征表示。
输出层的权重矩阵为:
W_out = [[0.8, -0.5],
[0.6, 0.7]]
输出层的计算公式为:
output = Softmax(H * W_out)
计算得到的输出结果为:
output = [[0.62, 0.38],
[0.42, 0.58],
[0.55, 0.45],
[0.45, 0.55]]
其中,每一行表示一个用户的性别预测概率,第一列表示男性的概率,第二列表示女性的概率。
通过这个简化的例子,我们可以看到图神经网络的基本组成部分以及它们在实际任务中的应用。
图卷积的实现通常分为两种主要方法:
1. 基于谱域的图卷积:基于图的拉普拉斯矩阵的谱分解。在谱域中进行图卷积等效于在图信号上应用滤波器,这可以通过拉普拉斯矩阵的特征向量(谱域的基)来实现。卷积核在谱域中定义为拉普拉斯矩阵的函数,例如通过多项式或其他函数来近似。
2. 基于空域的图卷积:空域方法直接在图的节点上操作,不需要转换到谱域。这种方法利用邻接矩阵直接定义节点间的信息传递和聚合。每个节点的新特征是其邻居节点特征的加权平均,权重由卷积核参数决定。例如,可以通过学习一个权重矩阵来实现,这个矩阵与邻接矩阵相乘,从而实现特征的聚合。
在图神经网络(GNN)模型中,图卷积是核心的特征提取和信息传递机制。
三、图神经网络存在的问题
过平滑(Oversmoothing)[1]问题:传统GNN(如GCN[2])堆叠过多的GNN卷积层,节点在一次次迭代中更新,导致节点的特征过度相似。当GNN模型层数增加时,节点的特征表示趋于均一化,导致不同节点的特征表示变得越来越相似,从而丧失了表达能力。这个问题限制了捕捉深层图结构特性的能力。
GNN还存在可扩展性、过参数化、可解释性、异质性数据上效果不好等问题,本文主要介绍引入残差连接技术解决过平滑问题。
当GNN模型的层数增加时,来自不同节点的特征开始彼此混合,最终导致不同节点的特征向量变得越来越相似。这种现象会减少特征向量之间的区分度,从而降低模型的表现力。残差连接是一种有效的技术,可以帮助缓解GNN中的过平滑问题。
四、残差连接技术
4.1残差连接技术介绍
在传统的深度学习中,残差连接(或跳跃连接)最初由He等人在ResNet架构中提出,用以解决深层网络中的梯度消失和性能退化问题。残差连接允许某一层的输入直接“跳跃”到后面的层,这样即使深层网络中的某些层学习到的是恒等映射,网络性能也不会下降。
在GNN中,残差连接通常形式为将某一层的输入直接加到其输出上。
如果表示第 l 层的图卷积操作为
其中 H(l) 是上一层的输出,A 是图的邻接矩阵,引入残差连接后的更新规则可以表示为:
其中 σ 是激活函数,如ReLU。允许原始输入信号直接传递到更深的层,有助于保持信息的丰富性,并避免特征的同质化。
4.2残差连接缓解过平滑的效果:
残差连接通过直接将前一层(或多层前)的输出加到当前层的输出上,有助于保持早期层中的信息不被后续层的重复变换完全抹平。这种方式可以看作是给每个节点的特征向量提供了一种“记忆”机制,使得原始信息在网络的深层中得以保留。
即使是多层的GNN,每个节点也能保留一部分初始特征的影响,从而减少特征向量之间的过度融合。不仅可以提高模型在深层网络结构上的训练效率,还可以提高模型对图中复杂结构的捕捉能力。
4.3 以GCNII[3]为例介绍其中一种残差连接方式
GCNII由陈翔等人在论文 《Simple and Deep Graph Convolutional Networks》 中提出。这个模型主要针对传统图卷积网络(如GCN)在深层结构中过平滑问题进行改进。GCNII通过引入改进的残差连接显著提高了模型在深层网络结构中的性能和表达力。
GCNII采用了一种扩展的残差连接技术。在标准的残差连接中,前一层的输出直接加到当前层的输出。而在GCNII中,这种连接被扩展为包括一个乘以系数 α 的前一层输出和一个乘以 1−α 的初始特征 X 的线性组合。具体来说,更新规则为:
其中 A是标准化的邻接矩阵,H(l) 是第 l 层的输出,H(0)=X 是节点的初始特征,αl 是与层相关的系数,可以用来控制每一层在学习过程中对初始特征的依赖程度。
初始残差连接,允许模型在每一层保持对原始输入特征的直接访问,从而防止信息在多层传播过程中的丢失,抑制了过平滑问题。还利用了恒等映射(Identity mapping)技术,在每层的卷积操作中,GCNII引入了恒等映射的权重矩阵 W(l),这有助于维持特征在深层网络中的稳定性。
GCNII效果:
残差连接的改进使得每一层都能够利用初始输入特征和上一层的输出,增加了特征在不同层之间的多样性。
恒等映射和系数调控允许模型在深层结构中调整每层对原始输入特征的依赖程度,减少了特征表示的同质化。
这张表格显示了几种图神经网络模型在不同数据集上进行全监督节点分类任务的平均分类准确率。GCNII在多个数据集上的表现性能很好,说明在处理复杂图结构时具有较高的效果和稳定性,也验证了残差连接的有效性。
五、应用场景和未来展望
5.1应用场景
Ⅰ、深层图网络建模:在需要多层处理以捕捉复杂图拓扑特征的场景中,残差连接帮助维持每层的学习效率和特征的多样性,避免了深层网络中常见的性能退化问题。
Ⅱ、节点分类和图分类:在节点分类和图分类任务中,残差连接使GNN能够利用深层结构来提取高层次的抽象特征,同时保留足够的初始输入信息,提高分类准确率。
Ⅲ、动态图处理:对于时间变化的图(如社交网络中的用户关系或交通流量网络),残差连接可以帮助模型更好地适应结构变化,通过保持历史信息的连续性来改进预测性能。
Ⅳ、跨域图学习:在跨不同类型的图(如不同类型的社交网络或不同种类的生物网络)进行学习时,残差连接可以增强模型的泛化能力,帮助模型在新图上快速适应并保持较好的性能。
5.2未来展望
残差连接可以与新兴的图网络技术(如图注意力网络、图变换器)整合,以进一步增强模型性能和适应性。
未来的研究可以探索自适应调整残差连接权重的策略,使网络能够根据不同任务和数据动态调整连接强度。
残差连接技术可以扩展到更多的实际应用中,如推荐系统、药物发现等,特别是在处理大规模和复杂的图结构数据时。
六、发挥的作用以及未来发展趋势
6.1发挥的作用
Ⅰ、缓解梯度消失和过平滑:残差连接通过为深层图网络引入直接的前向连接,有效防止了梯度在多层传递过程中的衰减,同时减少了节点特征的同质化,保持了特征的丰富性和多样性。
Ⅱ、提高学习效率和网络深度:允许模型扩展到更多的层次而不会导致性能下降,从而可以设计更深的GNN模型以提取更复杂的数据特征。
Ⅲ、增强模型的表达能力:残差连接通过结合不同层级的信息,提高了网络捕捉和表示复杂数据结构的能力。
6.2未来发展趋势
6.2.1技术改进
Ⅰ、动态残差连接:动态调整残差连接权重能够根据训练过程中的反馈或图的特定特性动态变化。这种自适应的连接机制可能会更有效地处理不同类型和大小的图数据,从而提高模型的灵活性和鲁棒性。
Ⅱ、多尺度和多层次残差连接:开发能够在不同层次和尺度上集成信息的残差连接结构,以增强模型对图中多尺度结构的捕捉能力。这涉及更复杂的网络架构,如多尺度图卷积网络,其中残差连接跨越不同的层次和尺度,帮助维护在各个级别的特征信息。
6.2.2新应用领域的开拓
Ⅰ、复杂系统和多模态数据分析:残差连接技术可以尝试应用于更广泛的复杂系统分析中,如多模态数据集成、生物信息学中的基因表达网络,以及物理系统的动力学模拟。这些应用通常涉及到从大量的噪声和复杂的数据中提取有用信息,残差连接可以帮助提高处理这些数据的效率和准确性。
Ⅱ、实时图数据流处理:在需要实时处理动态变化图数据的场景(如交通流量监控、社交媒体动态网络分析),残差连接可以帮助模型快速适应新数据,提高预测和分析的实时性。
6.2.3与其他技术的融合
Ⅰ、与图注意力机制结合:将残差连接与图注意力网络(GAT)结合,可能会产生一种强大的网络模型,这种模型不仅可以关注重要的节点和边,还可以有效地通过残差连接传递深层网络中的信息,进一步增强模型的性能。
Ⅱ、与机器学习新趋势结合:如联邦学习、自监督学习等新兴的机器学习范式,可以尝试与残差连接技术结合,特别是在处理分布式图数据或进行无监督学习时,使用残差连接来增强模型的学习能力和泛化性。
6.2.4理论研究的深化
Ⅰ、深入理解残差连接的作用机制:尽管残差连接已经被广泛应用,但其在GNN中的确切作用机制,特别是如何准确地影响梯度流和特征融合,有待更深入研究。理论上的深化探索可以帮助优化残差连接的设计,使其更加高效和提高鲁棒性。
Ⅱ、残差连接的优化和标准化:标准化和优化残差连接的实现,可以更容易地集成到各种图处理框架和库中,降低实际应用的门槛。
七、参考文献
[1] Qimai Li, Zhichao Han, and Xiao-Ming Wu. 2018. Deeper insights into graph
convolutional networks for semi-supervised learning. In Proceedings of the AAAI
Conference on Artificial Intelligence, Vol. 33. 3538–3545.
[2] Thomas N. Kipf and Max Welling. 2017. Semi-supervised classification with
graph con
[3] Ming Chen, Zhewei Wei, Zengfeng Huang, Bolin Ding, and Yaliang Li. 2020.
Simple and deep graph convolutional networks. In International Conference on
Machine Learning. PMLR, 1725–1735. (GCNII)