论文-基于一致性-多样性图增强的图神经网络正则化

最新推荐文章于 2024-03-18 16:08:31 发布

一叶渔船

最新推荐文章于 2024-03-18 16:08:31 发布

阅读量543

点赞数

文章标签：神经网络人工智能深度学习

本文链接：https://blog.csdn.net/weixin_42165744/article/details/129020906

版权

本文探讨了图神经网络（GNNs）在半监督学习中的图数据增强问题，指出当前方法存在一致性和多样性之间的困境。为解决此问题，提出了NASA算法，通过邻域替换来同时保证增强的一致性和多样性，并利用邻域约束正则化提高模型的泛化能力。实验结果显示NASA在多个数据集上提高了GNN的准确性和泛化性能。

摘要由CSDN通过智能技术生成

在这里插入图片描述

摘要

尽管图神经网络在半监督学习中有着显著的性能，但它不能充分利用未标记数据，容易出现过拟合。近年来，图数据增强技术作为一种提高GNNs精度和泛化能力，受到了广泛的关注。然而，一个基本的问题是原则上如何评估图增强的质量？本文从增强正确性和泛化能力两个方面提出了两个度量标准，即一致性和多样性。此外，我们发现现有的增强陷入了这两个指标之间的困境。我们能找到一个同时满足一致性和多样性的图增强吗？一个明智的答案可以帮助我们理解图增强背后的机制，同时提高GNNs的性能。为了解决这一问题，我们分析了两种具有代表性的半监督学习算法：标签传播label propagation（LP）和一致性正则化consistency regularization（CR）。我们发现LP算法利用图的先验知识来提高一致性，而CR算法采用variable augmentations（可变增强）来提高多样性。在此基础上，我们将邻域作为增广来捕捉embodying homophily assumption（体现同态假设）的先验知识，从而保证增广的一致性。为了进一步促进多样性，我们随机地用每个节点的远处邻居（remote neighbors）替换其近处邻居（immediate neighbors）。在此基础上，提出了一种邻域约束正则化方法，以保证增广邻域的预测结果相互一致。在5个真实图上的实验结果验证了该方法在提高GNNs精度和泛化能力方面的优越性。

1 介绍

图神经网络（GNNs）作为一种典型的基于图的半监督学习（SSL）方法，已经取得了最先进的性能（Kipf and Welling 2017;Velickovic等人，2018年）。尽管取得了成功，但GNNs仍因没有充分利用未标记数据而受到批评（Wang et al. 2020;Feng等人，2020），这是SSL的基本要求（Yang等人，2021）。以前的方法倾向于使用伪标签来克服这个限制（Sun，Lin和Zhu 2020;Li、Han和Wu，2018年），但校准效果较差（Guo等人，2017年）。最近，图数据增强被用于提高GNNs的精度和泛化能力（Rong et al. 2020;Wang等人，2021年;Feng等人，2019、2020;Wang等人，2020年）。

虽然已有一些图的增强策略，如DropEdge（Rong et al. 2020）和DropNode（Feng et al. 2020），但目前还不清楚哪种扩充策略更适合GNN。一般而言，简单增强对模型泛化的贡献较小，硬增强（hard augmentation）可能会带来额外的噪声（Yin et al. 2019）。因此，一个自然的问题是如何从原则上评价图增强的质量？为了实现这个目标，作为本文的第一个贡献，我们提出了两种在SSL中图增强的度量：一致性和多样性。一致性表明被增强的数据是否与原始数据属于同一类，多样性揭示被增强的数据捕获的分布与原始数据有多大不同。详细说明见第2节。如果增强数据和原始数据在不同的类中，则会损害模型的精度。然而，如果扩充与原始数据相似，则它可能对模型的泛化能力贡献较小。因此，一个好的增强不仅要保证正确性，还要提供足够的泛化能力。

基于这两种评估，我们测试了三种常用的图增强，即：Dropout、DropEdge和DropNoade，具有不同的丢弃率。结果如图1所示(a)，哪里有一致性和多样性之间的两难境地：有高一致性的增强可能更少的多样性，反之亦然。自从证实图增强的困境存在，一个自然的问题是我们能找到一个图增强同时满足一致性和多样性吗？这不是一个简单的任务，因为我们需要定量定义图数据的一致性和多样性，使它们之间保持一种微妙的平衡。
在这里插入图片描述
(a)增强的困境（b）一个小型半监督数据集

图1：（a）Cora数据集上不同增强的一致性和多样性。虚线表示原始数据的一致性。不同颜色的圆圈表示不同的图增强。黑色和红色的十字架表示近邻的一致性和多样性以及我们建议的增强。(b)SSL中数据扩充的一个小型示例。蓝色和红色圆圈是已标记数据，灰色圆圈是未标记数据，矩形是增强。

要解决这个难题，我们需要知道影响一致性和多样性的因素。分析了两种具有代表性的SSL方法：标签传播（LP）和一致性正则化（CR），发现LP使用邻居作为增强，自然地捕捉了图的先验知识，并提高了一致性。而CR采用可变增强来促进多样性。基于这一发现，本文提出NASA（Neighbors Are Special Augmentations）算法来增强和正则化GNNs。NASA由两部分组成：增强和正则化。在增强算法中，我们将邻居视为特殊的增强，并提出用远邻节点代替近邻节点来干扰节点。通常，邻居可以捕获图的先验知识，即同态假设，并且替换邻居可以提高可变性，从而可以同时保持较高的一致性和多样性。在正则化中，我们提出了一种邻域约束正则化方法，它强制邻域的预测彼此一致，这样大量的未标记节点就可以用于训练。此外，我们还证明了所提出的正则化方法可以作为传统图正则化方法的补充。
本文的贡献概述如下：

我们提出一致性和多样性来评估现有的图增强的质量，发现它们不能同时满足这两个度量。据我们所知，这是第一次探索图增强的度量。
本文提出了NASA算法，该算法通过将近邻替换为远邻来生成具有高一致性和多样性的图增强，并约束增强邻居的预测结果必须一致.
我们通过在五个真实世界数据集上与最先进的方法进行比较来验证NASA的有效性。我们还进行了泛化测试，以验证NASA在提高GNN泛化能力方面的优势。

2 增强评估（Evaluation of Augmentation）

在本节中,我们将介绍两个指标的详细描述，即一致性和多样性。在此之前，我们首先解释设计这两个指标的动机。
我们以“two moons”的数据为例（Verma et al. 2019），如图1（b）所示，其中蓝色和红色圆圈为标记数据，灰色圆圈为未标记数据。我们可以看到，标记的数据数量相对较少，不能反映整个数据的分布情况。在这种情况下，我们考虑三种类型的增强，即A，B，C。显然，尽管A位于正确的类中，但由于其接近原始数据（高一致性，低多样性），因此其贡献的信息很少；B与原始数据不同，但位于错误的类中，带来了额外的噪声（低一致性、高多样性）；C对分类有很大的好处，因为它不仅有正确的标签，而且带来了额外的泛化能力（高一致性，高多样性）。上述讨论表明，良好的增强应该推广到训练数据之外的分布。因此，仅使用标记数据无法全面评价增强的质量。为了更好地度量增强算法的正确性和泛化能力，我们需要引入验证集等附加数据进行评估。其主要思路如下：
我们首先训练两个模型在这里插入图片描述
分别通过训练数据 $D_{train}$ 和它的增强 $\widetilde{D}_{train}$ ，其中d是输入特征的维数，C是类的数目，θ表示参数。然后，利用这两个模型对验证集 $D_{val}$ 进行预测。如果增强模型具有更好的正确性和泛化能力，那么 $\widetilde{F}_θ$ 在验证集上应该具有更高的准确性，并建立一个与 $F_θ$ 更不同的决策边界。这就产生了一致性和多样性的度量标准：
一致性标准。 我们使用验证集上增强模型的准确度来表示一致性水平：
在这里插入图片描述
$Y_{val}$ 表示验证数据的标签。较低的C值意味着增强与原始数据不一致，这可能会损害模型的准确性。然而，较高的C值并不意味着增强的质量一定是好的，因为它可能对模型的泛化贡献较小，这导致多样性的度量。

多样性标准。 我们使用原始模型 $F_θ$ 和增强模型 $\widetilde{F}_θ$ 的预测值之间的差异来表示多样性水平：
在这里插入图片描述
其中 $_F$ 是Frobenius范数（简称F-范数）。D值较低表明增强与原始数据具有相似的分布，这不利于模型的推广（Yin et al. 2019）。但是D的较大值不能保证增广的正确性。因此，评价时需要结合两个指标。
注意，一致性和多样性的度量不限于图数据。相反，它们可用于评估其他半监督领域（如计算机视觉）中数据增强的质量（Berthelot等人，2019;谢等人，2020年）。在下一节中，我们将介绍我们的方法，并解释这两个指标如何指导模型设计。

3 方法（Methodology）

设G =（V，E）表示一个图，其中V是节点的集合，|V|= N，E是边的集合。图G有一个邻接矩阵A ∈ {0，1} 矩阵大小 N × N，其中 $A_{ij} = 1$ 表示 $v_i$ 和 $v_j$ 之间有一条边，否则为0。其中 $X ∈ R^{N×d}$ 为节点特征， $H ∈ R^{N×C}$ 为节点表示（这个C应该是类的数目），是由GNNs学到的。通常，大多数现有的GNNs可以被概括为消息传递架构（Gilmer等人2017），其可以被公式化为
H = Trans（Agg{A，X;Φ};Θ）。
Agg表示聚集来自图中邻居的信息，而Teans表示将聚集的信息转换成新的节点表示。参数Φ、Θ分别用于聚合和转换。在图增强中，扰动（perturbation）可能发生在节点特征和结构中。因此，增强节点表示可以被计算为
在这里插入图片描述
其中 $\widetilde{A}$ 和 $\widetilde{X}$ 分别是增强的特征和结构。

3.1 一致性正则化与标签传播的联系（Connection Between Consistency Regularization and Label Propagation）

SSL的一个基本要求是充分利用未标记的数据。本文回顾了两种典型的SSL算法，并讨论了它们如何使用增强来帮助未标记节点。
标签传播是一种传统的基于图的半监督算法，它沿着图的拓扑结构将标签传播到未标记的节点上（Zhou等2003）。目标函数可定义为：
在这里插入图片描述
其中 $h_i$ 是H的第i行， $V_L$ 表示标记节点，α是超参数， $y_i$ 是表示为vi的标签的one-hot向量， $N_i$ 表示vi的邻居。第一项是分类损失，这里我们以均方损失为例。第二项是图的拉普拉斯正则化，其强制邻居的表示是一致的。注意，公式三为
在这里插入图片描述
其中L是A的拉普拉斯矩阵。
一致性正则化是一种新兴的半监督模型，它强制模型在原始数据和随机增强之间具有相似的预测，从而使模型对小数据扰动具有鲁棒性（Xie et al. 2020）。目标函数可表示为：

其中K是随机增强的数目， ${\widetilde{h}_i}^{(k)}$ 是第k次增强的表示。CR的第一项与LP相同，并且第二项是正则化，其使用vi的预测作为伪标签来监督其增强的输出。
注1. (LP和CR的两个视角）比较等式3和等式4、我们发现LP和CR的区别在于正则化。从LP的角度看，使用邻居作为增强显式地利用了图的先验知识，即同质性假设。因此，邻居的一致性高于随机增强。从CR的角度来看，邻居的特征和结构hj在训练过程中是固定的，而随机增强 ${\widetilde{h}_i}^{(k)}$ 将动态变化，例如dropedge算法在每个epoch中丢弃不同的边，从而提高了GNNs的泛化能力。
上述讨论揭示了良好的增强不仅应该利用数据的先验知识（为了一致性），而且应该提供可变的增强（为了多样性）。这激发了我们模型的设计。

3.2 Our Proposed Model: NASA

我们将详细介绍我们提出的模型，该模型由两部分组成：增强和正则化。在增强算法中，我们提出用远邻居代替近邻居来提高多样性。在正则化中，我们提出了两种技术来约束增强的预测。
Augmentation on Neighbors. 受LP设计的启发，我们将邻居作为增强来提高一致性。然而，这种方式缺乏可变性并且可能受噪声影响。因此，一种有效的增强策略是在训练期间改变邻居。

为了确定我们应该使用哪些邻居作为替代，我们进行了一个实证研究，以确定其质量。具体来说，我们根据邻居到训练节点的距离将它们分成不同的组。然后，我们通过公式计算一致性和多样性。公式1和2中，我们使用图卷积网络（GCNs）作为测试模型 $F_θ$ ，训练节点是 $D_{train}$ ，它们的邻居是 $\widetilde{D}_{train}$ 。结果如图2所示。可以看出，邻居离训练数据越远，一致性越低，多样性越高。特别地，将2跳邻居与3跳邻居进行比较，我们可以发现2跳邻居的一致性略有下降，而3跳邻居严重损害了一致性，并且没有增加太多的多样性。
在这里插入图片描述
图2：不同邻居一致性和多样性的实证研究。“Raw”表示原始训练节点，“k-hop”表示距离训练节点k跳的邻居，其中k ∈ {1，2，3}。

在此基础上，提出了Neighbor Replace (NR)，用2跳邻居随机替换1跳邻居。具体地，对于节点vi，我们使用伯努利分布来随机地采样其邻居，即
在这里插入图片描述
对于每个采样的邻居vj，其中εj = 1，我们丢弃vj和vi之间的边，并随机选择vj的邻居作为vi的新邻居，即：

对于εj = 0的邻居，我们不改变它们，并将它们表示为

因此，vi的增强邻居定义为

NR的好处有两方面：第一，1跳邻居和2跳邻居之间的交换扰乱了图结构，但不会严重损害正确性。第二，监督信号（supervision signals）可以传播到更多的未标记节点，从而提高泛化能力。
虽然图结构包含一致性信息，但边间（inter-edges）和NR增强可能引入一些噪声。这里我们提出两种技术，即：neighbor-constrained regularization and dynamic training（邻居约束正则化和动态训练），以防止伪标签受到严重干扰。
Neighbor-constrained Regularization. 在扰动每个节点的邻居之后，我们将增强的图拓扑 $\widetilde{A}$ 和原始节点特征X馈送到任意GNNs中以学习节点表示：
在这里插入图片描述
对于已标记节点，往往使用交叉熵损失去监督GNNs的预测：

注意，这里我们使用标签来监督增强表示 $\widetilde{h}_i$ ，因为我们发现这种方法可以降低过拟合的风险。对于未标记的节点，我们设计了一种新的邻居约束正则化方法，以保证相邻节点的预测一致。具体来说，我们首先融合邻居的预测作为中心节点的伪标签：
在这里插入图片描述
邻居预测的平均值与投票结果相似，可以有效地防止伪标签受到噪声邻居的影响。
在使用平均伪标签来监督邻居的预测之前，我们利用锐化技巧来强制分类器输出低熵预测：

其中T ∈（0，1]是一个缩放因子（scaling factor），控制预测的锐度，i是节点的索引，j和c表示具体的表示维度（0 < j < C−1）。然后，我们使用锐化的伪标签来监督增强的邻居的预测：
在这里插入图片描述
其中KL是Kullback-Leibler散度（Joyce 2011），测量两个分布之间的距离。此外，我们不会使用伪标签pi的梯度来更新参数Φ和Θ，如（Miyato et al. 2019）所建议的。通过这种正则化，未标记的节点可以用于训练，以防止模型过拟合。最终的损失函数是分类和邻域约束正则化的组合：
在这里插入图片描述
其中α是用于平衡的超参数。

最后，我们进一步解释了为什么这种正则化被称为"邻居约束"。此外，我们还分析了它与传统的图正则化（Belkin和Niyogi 2003）的联系。我们可以重写方程7为：
在这里插入图片描述
其中由于梯度截断而可以去除第一项。因此，如果我们忽略锐化技巧，第二项可以改写为：

这可以被看作是增强的邻居之间的交叉熵损失。方程10要求邻居的预测彼此一致。这就是为什么我们称这种正则化为“邻居约束”。

Connection with manifold（流形） learning.
类似于等式3和等式4，NASA的目标函数可以改写为：
在这里插入图片描述
方程11的第二项类似于局部线性嵌入（LLE）（Roweis和Saul 2000）算法，其使用邻居的加权和来重构目标节点。以此方式，高维数据的流形可以保持在低维空间中。

Dynamic Training.
在训练过程中，我们在每个epoch中对每个节点进行NR，也就是说增强图拓扑 $\widetilde{A}$ 在每个epoch都是不同的。我们称之为动态训练 ，否则称为静态训练。NASA的动态训练使模型更加稳健。一方面，在每个epoch中，使用不同的近邻进行训练，使得模型不受近邻变化的影响。另一方面，可能存在一些不属于同一类的邻居。使用动态训练可以防止模型过度拟合不满意的增强。消融研究见第4.3节。

Complexity （复杂度）
时间复杂度由两部分组成：一个是GNNs的复杂度。这里我们以GCN（Kipf and Welling 2017）为例，其复杂度为O(L | E | d ^ 2)，L为层数。另一个是正则化的复杂度，其复杂度为O（| E | d）。因此，的总体复杂度为O（| E |（L * d ^ 2 + d）），其与边的数目成线性关系。

4 实验

4.1 实验设置

我们测试了不同方法在半监督节点分类任务中的性能。具体而言，我们使用了五个不同的数据集——三个引文数据集，例如：Cora、Citeseer和Pubmed（Kipf和Welling 2017）和两个co-purchase数据集，例如，Amazon Computers和Amazon Photo来自（Shchur等人，2018）。这些数据集的统计数据见表1。此外，我们考虑了三种不同的数据分割，以更全面地评估这些方法。第一种是（Kipf and Welling 2017）提供的引文网络标准拆分，广泛用于节点分类任务（Velickovic et al. 2018）。在标准拆分中，每个类有20个标记节点，500个节点用于验证，1000个节点用于测试。第二种是较少标签分裂的引文网络，其中每个类别有5个标签节点，验证和测试节点集与标准分裂相同。标签分割越少，对模型的泛化提出的挑战就越大。第三次拆分是co-purchase数据集的随机拆分，其中每个类别随机抽取20个节点用于训练，30个节点用于验证，其他节点用于测试，如（Shchur et al. 2018）所示。所有的数据拆分在以前的工作中被广泛使用（Feng et al. 2020;Wang等人，2020年）。

基准。 我们选择三种方法作为基准：基于LP的方法、基于GNNs的方法和基于正则化的方法。这些方法的详细描述和讨论见第5节。

LP-based methods: Original LP (Zhou et al. 2003), GLP(Li et al. 2019), GCN-LPA (Wang and Leskovec 2020) and PTA (Dong et al. 2021).
GNNs-based methods: GCN (Kipf and Welling 2017),
GAT (Velickovic et al. 2018), MixHop (Abu-El-Haija et al. 2019), GMNN (Qu, Bengio, and Tang 2019) and APPNP (Klicpera, Bojchevski, and G¨unnemann 2019).
Regularization-based methods: GAUG(Zhao et al. 2021), DropEdge (Rong et al. 2020), GraphVAT (Feng et al. 2019), GraphMix (Verma et al. 2021), GRAND (Feng et al. 2020) and NodeAug (Wang et al. 2020).
执行。 超参数设置如下：所有方法的学习率= 0.01，权重衰减= 1e-3，隐藏单元= 32和Adam优化器（Kingma和Ba，2015）。对于基准测试，如果原始文献提供了超参数，我们就按照作者的建议设置它们。对于NASA，对于所有数据集dropout rate在{0.1，…，0.9}，在{0.1，…，1.0}且α = {0.1，…，1.0}。我们运行NASA 1000个epoch，并选择验证损失最小的模型进行测试。对于较少标签拆分和随机拆分，我们使用种子{0，1，2，3，4}进行5次随机拆分，对于每种方法，我们运行10次并报告平均准确度和标准偏差。请注意，为了公平比较，我们使用标准的双层GCN作为基于正则化的方法和NASA的主干，因为我们希望确保改进来自正则化项本身，而不是advanced（改进的）GNN。

4.2 节点分类性能

不同方法的性能总结见表2。从上到下，我们展示了三种类型基线的结果，从中我们可以得出以下结论：首先，基于LP的方法的准确度通常低于其他两种类型的方法，这表明仅使用标签的依赖性不能获得满意的结果。此外，基于正则化的方法的性能显著高于基于GNNs的方法，这表明了正则化项的有效性。特别是NASA在标准Cora、Citeseer和Pubmed上分别将GCN的性能提高了4.4%、7.4%和1.5%。对于较少的标签分裂，NASA做了更多的改进，即：7.3%，8.6%和3.1%，这证明了我们提出的正则化方法在利用大量未标记数据方面的优越性。在随机拆分中，NASA也实现了最先进的性能。最后，我们注意到NASA在Pubmed上的性能比GraphMix和NodeAug弱。我们猜测这是因为在Pubmed中，邻居对分类的贡献不大。
在这里插入图片描述
表2：不同标签分割下的节点分类结果（%）。值越高表示性能越好。粗体表示最佳。(-)表示标准偏差太大，无法获得稳定结果。

4.3 消融研究

为了证明NASA不同组件的有效性，我们在两个数据集上进行了两项消融研究：Cora和Citeseer.。具体地，我们分别验证了NASA的图增强策略和正则化项的有效性。结果见表3和表4。
在表3中，我们测试了不同的增强策略如何影响NASA的性能。首先，我们发现在没有增强的情况下，结果更加稳定，但是精度有所下降，这说明增强有助于提高模型的性能。此外，还讨论了图结构的增强，NR和dropedge比节点特征上的增强更有用，即dropnode和dropout。（You、Ying和Leskovec 2020）也观察到了这种现象。因此，未来图增强的工作可以更多地集中于图拓扑的perturbing（扰动）。
在这里插入图片描述
图3：Cora（a-c）和Citeseer（d-f）的训练和验证损失曲线。训练和验证损失之间的差距越小，表示泛化效果越好。

在表4中,我们列出的结果的不同变体在NASA的正则化项。前两行显示动态正规化培训的优势。我们可以发现,静态训练的准确性低于动态训练,和标准差要高得多,尤其是在Citeseer。这表明静态训练很容易受到极端的扩增,而动态训练更加稳定。中间两行验证有效性的增强和邻居。没有任何的NASA的性能将下降,这反映了观察图1 (a)。最后一行展示了锐化的有效性。

4.4 泛化分析

我们设计了这个实验来验证NASA在提高GNNs泛化能力方面的优越性。具体而言，我们使用泛化差距（GP）来衡量不同模型的泛化能力。GP是模型泛化的常用指标（Jiang et al. 2019），定义为训练损失和验证损失之间的差异。请注意，GP值越小表示泛化效果越好。在实验中，我们首先在训练过程中联合优化分类和正则化损失。在推理过程中，去掉正则化项，只使用骨干GNN计算训练和验证损失。在这种情况下，增强只能在训练阶段对模型产生影响，这就要求正则化项充分利用未标记数据。
从图3可以看出，基于CR的方法的差距，即：NASA和GRAND的收敛速度总是小于GCN和LP，表明CR在提高GNN的泛化能力方面具有优势。此外，与GRAND相比，NASA在Citeseer和Cora上的差距分别缩小了12.5%和25%。这一观察结果表明，NASA的正则化方法比GNN上最先进的正则化方法更有效。值得注意的是，NASA差距的缩小得益于验证损失的减少，而非训练损失的增加，这证明NASA能够很好地利用未标记数据。最后，我们发现了一个有趣的现象，NASA的损失曲线在训练开始时会增加。我们认为这是因为模型一开始倾向于优化正则化项。

4.5 Case Visualization

在这里插入图片描述
图4：（a）Cora中节点表示的可视化。颜色表示不同的类别。我们放大红色类以显示（B）LP的邻居、（c）CR的DropNode和（d）NASA的邻居替换的增强。

在图1（a）中，我们引入了图扩充的一致性和多样性之间的两难困境。在这里，我们给予不同的增强更密切的形象化。我们考虑三种图增强策略：直接邻居DropNode和NR，它们分别对应于LP、CR和NASA。对于DropNode，丢弃概率设置为0.5，如（Feng等人，2020）所建议。我们以训练集中的一个节点为例，将其表示和增强一起放大。可视化结果如图4（a）所示。

在图4（B）中，我们可以发现，除了一个邻居，其他邻居（黑圈）都离原节点（红圈）很近，这说明邻居的一致性很好，但多样性较差。在图4（c）中，扩展远离原始节点，其中一些扩展在簇外。这表明尽管DropNode可以提供更好的多样性，但其一致性无法得到保证。图4（d）显示了NR的增大。我们可以看到，增强位于聚类的不同位置，这比LP和CR表现出更好的一致性和多样性。NR算法性能良好的原因在于它使用两跳内的邻居作为增广，比直接邻居具有更大的多样性，比随机增广具有更好的一致性。

5 相关工作

标签传播。 LP（Zhou et al. 2003）是一种简单有效的基于图的SSL算法，它沿着网络结构向未标记节点传播标记。LP算法的主要缺点是不能充分利用节点的特征，因此其性能严重依赖于网络结构和初始化。针对这一问题，提出了相应的解决方法。广义标签传播（GLP）（Li et al. 2019）通过将LP的图过滤器扩展到节点特征来泛化LP。GCN-LPA（Wang and Leskovec 2020）将GNN与LP相结合，其中LP的目标函数用于学习用于图卷积的边的权重。此外，（Dong et al. 2021）证明了解耦的GCN，例如：APPNP（Klicpera、Bojchevski和G ¨ unnemann 2019）相当于两步标记传播。

图形神经网络。 GNNs在半监督节点分类领域取得了突破性进展。目前，GNN可分为两类：光谱方法和空间方法。谱方法旨在利用图形信号处理理论设计图形滤波器，如GCN（Kipf and Welling 2017）和GraphHeat（Xu et al. 2019）。空间方法主要关注GNN的消息传递设计。例如，GAT（Velickovic et al. 2018）使用注意机制来学习邻居的重要性，MixHop（Abu-El-Haija et al. 2019）连接具有不同顺序的邻居的表示。然而，它们都没有明确利用未标记节点进行训练，容易对稀缺的训练数据产生过拟合。

GNN上的正则化。 计算机视觉领域首次采用了在SSL中使用CR（Berthelot等人，2019;Sohn等人，2020年;Xie et al. 2020），然后在图形数据中引起注意。CR提供了一种使用未标记数据的显式方法，显著提高了模型的泛化能力。数据扩充是CR的一个重要组成部分。为了将CR应用到GNN中，人们提出了许多图扩充方法。例如，GRAND（Feng et al. 2020）提出了DropNode，GraphVAT（Feng et al. 2019）设计了图形虚拟对抗训练，GAUG（Zhao et al. 2021）提出了可学习的增强策略，GraphMix（Verma et al. 2021）使用线性插值。他们更喜欢在图结构或节点特征或两者上执行随机扰动。与它们不同的是，我们倾向于利用先验知识来扩充图，从而保证扩充的一致性。

6 结论

本文研究了如何利用图增强去正则化GNNs，提高其性能和泛化能力。我们发现现有的图增强陷入了一致性和多样性之间的两难境地。针对这一问题，提出了一种新的正则化方法NASA，利用增广邻居的高度一致性和多样性对GNN进行正则化。实验结果验证了NASA算法在提高GNN性能和泛化能力方面的优越性。一个重要的未来工作是防止NASA受到噪声邻居的影响，并将该方法推广到异构图。