知识蒸馏论文精选——《SCR: Training Graph Neural Networks with Consistency Regularization》

宇直不会放弃

已于 2024-05-21 23:37:08 修改

阅读量773

点赞数 30

分类专栏： GKD-Output layer 文章标签：数据挖掘机器学习神经网络 cnn pytorch 深度学习人工智能

于 2024-05-16 09:44:46 首次发布

本文链接：https://blog.csdn.net/qq_44699157/article/details/138943847

版权

SCR 训练一致性正则化的图神经网络

《SCR: Training Graph Neural Networks with Consistency Regularization》2022

作者是 Chenhui Zhang, Yufei He, Yukuo Cen, Zhenyu Hou, Wenzheng Feng, Yuxiao Dong, Xu Cheng, Hongyun Cai, Feng He and Jie Tang

论文地址见文末

摘要

我们提出了SCR框架，用于增强具有一致性正则化的图神经网络( GNNs )的训练。正则化是机器学习中用来减少过拟合和提高泛化能力的一组策略。然而，由于GNNs工作在图数据的半监督环境中，如何最佳地设计GNNs的泛化策略尚不清楚。主要的挑战在于如何有效地平衡来自标记数据和来自未标记数据之间的误差。SCR是一个简单但通用的框架，其中我们引入了两种一致性正则化策略来解决上述挑战。其一是最小化GNN模型不同版本的扰动预测之间的差异。另一种是利用平均教师范式来估计教师和学生模型之间的一致性损失，而不是预测的不一致。我们在Open Graph Benchmark ( OGB )中的3个大规模节点分类数据集上进行了实验。实验结果表明，所提出的SCR框架是一个通用的框架，可以增强各种GNN以获得更好的性能。最后，SCR已成为本次提交的所有三个OGB排行榜的第一名。

代码：https://github.com/THUDM/SCR/.

1、引言

由节点和边组成的图结构数据是一种灵活且强大的表示连通对象的工具。随着深度学习和神经网络在计算机视觉、自然语言处理等领域的巨大成功，图神经网络( graph neural networks，GNNs )在图机器学习任务[ 17,37,43,15,26]上也取得了显著的性能提升。在Open Graph Benchmark [ 19 ]等公开数据集的排行榜上，这些GNN模型中的许多成为了排名第一的表现者。

然而，训练一个成功的GNN模型需要大量的标注数据，这在现实场景中很难获得。研究表明，在训练中使用未标记数据可以有效提升模型性能。因此，关于图上半监督学习的研究已经成为数十年来的一个热门话题。一些工作已经提出在训练阶段[ 34、48、23]中使用"伪标记"来利用未标记节点。其中，多阶段自训练方法取得了最好的性能。其基本思想是将训练过程分为若干阶段。在每个阶段的开始，根据上一阶段的预测，通过为未标记节点分配伪标签来扩展训练集。这种做法行之有效，利用了未标记节点的信息，从而获得更好的性能。然而，多阶段方法比单阶段方法需要更多的训练时间。

在这项工作中，我们提出了一个简单而通用的 一致性正则化( SCR )框架 ，以提高半监督环境下图神经网络的性能。具体来说，我们针对GNNs提出了两种基于一致性正则化的策略。第一种，称为 SCR ， 是为了最小化GNN模型不同版本的扰动预测之间的差异。不同的版本可以通过数据增强或给定模型的随机性来获得。例如，GRAND [ 13 ]使用随机传播来生成一个图增强。对于每一个图增强，我们可以通过GNN模型生成一个版本的预测。通过最小化来自不同版本的预测之间的差异，SCR能够提高GNN模型的泛化能力。

另一种SCR策略被称为==均值-教师一致性正则化( SCR-m )==，它利用了教师-学生范式。对于SCR - m，我们遵循Mean Teacher [ 36 ]的方法，通过计算学生的扰动预测和教师的预测之间的一致性损失来指导训练过程，而不是像SCR那样最小化预测结果的不一致性。 教师模型的参数直接来自学生模型的指数移动平均( EMA )权重，而不需要额外的反向传播。在每个训练步骤中，教师模型的参数将由学生模型进行更新 。

我们在三个大型数据集上对最近研究较多的Open Graph Benchmark ( OGB ) [ 19 ]中的节点预测任务进行了实验。具体来说，我们将所提出的SCR技术应用于两个最近的GNN架构，即SAGN [ 34 ]和GAMLP [ 48 ]。在3个数据集上的实验清楚地表明，SCR可以有效地提高基本GNN的性能，事实上超过了3个OGB排行榜上的所有条目。此外，我们的研究还表明，SCR可以改进广泛的(先进的) GNN模型，例如GraphSAGE [ 17 ]，SIGN [ 45 ]，ClusterGCN [ 9 ]和GraphSAINT [ 46 ]，证明了SCR作为增强GNN的通用框架的好处。

综上所述，本文的工作主要有以下贡献：

·有效性。实验结果表明，所提出的SCR在Open Graph Benchmark ( OGB )的三个大型数据集上都取得了最好的性能。

·可扩展性。SCR是一个简单而有效的框架，为GNNs提供了可扩展的一致性正则化方法，使其可以扩展到具有1亿个节点和10亿条边的图。

·灵活性。SCR作为一个通用的框架，对所有类型的图神经网络都非常灵活，例如SAGN，GAMLP，GraphSAGE，SIGN，ClusterGCN和GraphSAINT。

2、相关工作

图神经网络

由于深度学习在各个领域的巨大成功，许多工作致力于将神经网络泛化到图结构数据中，从而产生了图神经网络( GNNs )的发展。作为开创性的工作，Kipf和韦林[ 22 ]提出了图卷积网络( GCN )，它采用切比雪夫多项式来近似图谱滤波器。之后，通过将图卷积推广到各种邻域聚合函数，提出了基于空间域的GNNs [ 17,37,43 ]，使得GNNs成为图建模的主流。基于空间GNN的构造方法，已经有一些采样策略被提出来在大图上扩展GNN，例如，FastGCN [ 8 ]，AS-GCN [ 21 ]和GraphSAINT [ 46 ]。

Gnns的正则化方法

在发展GNN结构的同时，一些工作也致力于利用一致性正则化技术改进GNN的训练。一致性正则化最早由[ 1 ]提出，它使用一致性损失来强制模型在不同的未标记数据增强之间给出相似的预测。为了将这一思想扩展到图上，主要的工作集中在设计数据增强策略，例如，VBAT [ 11 ]和GraphVAT [ 12 ]利用虚拟对抗训练来生成图数据增强。Graph Mix [ 38 ]借鉴了Mix Match [ 3 ]的思想，采用Mix Up [ 47 ]来方便GNN的训练。GRAND [ 13 ]和Node Aug [ 40 ]进一步探索针对图数据的复杂增广策略，在小图上取得了显著的性能增益。然而，这些数据增强方法通常是耗时的，特别是在大规模图上，因为它需要在每个训练步骤中执行。

与一致性正则化类似的技术是自训练，它利用未标记节点的"伪标注"来促进模型训练。Li等[ 23 ]是探索GCNs协同训练和自训练的早期工作，在训练中使用非常少的标签时，显著提高了GCNs的性能。Sun等[ 35 ]提出了一种多阶段自监督( M3S )训练算法，利用聚类方法构建伪标注。

3、预备知识

用G = ( V、E)表示一个有N个节点的图，其中V是它的节点集，E∈V × V是边的集合。图G的邻接矩阵记为A∈R^N×N，它的( i , j) -项 A[ i , j] = 1( ( i , j)∈E )表示从节点 i 到节点 j 是否有一条边。我们还假设每个节点i∈V与一个特征向量x_i∈R^d相关联。

我们在节点分类的背景下说明了我们的方法，尽管它可以很容易地推广到其他任务，如链接预测和子图分类。在节点分类的设定中，给定一个图G = ( V、E)和一组带标签的节点，记为V_L⊂V，每个带标签的节点 i ∈ V_L与一个编码其真实类别的 one-hot 向量 y_i∈{ 0，1 } ^C相关联。C为预定义类的个数。我们的目标是学习一个由θ参数化的函数f _θ ( i | G)，它可以预测给定未标记节点i的正确类别。