掩码标签预测:用于半监督分类的统一消息传递模型(2021)
摘要
图神经网络(GNN)和标签传播算法(LPA)都是消息传递算法,在半监督分类中取得了优异的性能。
GNN通过神经网络形成特征传播来进行预测,而LPA使用跨图邻接矩阵的标签传播来获得结果。然而,仍然没有有效的方法将这两种算法直接结合起来。
为了解决这个问题,我们提出了一种新的统一消息传递模型,该模型可以在训练和推理时结合特征和标签传播。
首先,UNiMP(统一消息传递模型、Unified Message Passaging Model)采用图变换网络,以特征嵌入和标签嵌入作为传播的输入信息。
其次,为了不在自循环输入标签信息进行过拟合的情况下训练网络,UNiMP引入了一种屏蔽标签预测策略,其中随机屏蔽了一定比例的输入标签信息,然后进行预测。
UNiMP在概念上统一了特征传播和标签传播,具有强大的经验能力。它在开放图基准(OGB)中获得了最新SOTA的半监督分类结果。
研究内容
世界上有各种场景,例如推荐相关新闻、发现新药或预测社会关系,这些场景可以描述为图结构。
在半监督节点分类任务中,我们需要使用标记的样本进行学习,然后对那些未标记的样本进行预测。为了更好地对图中节点的标签进行分类,基于拉普拉斯平滑假设,提出了消息传递模型来聚合图中其连接邻居的信息,获取足够的事实,以对未标记的节点进行更稳健的预测。
通常,有两种主要的方法来实现消息传递模型,即图神经网络(GNN)和标签传播算法(LPA)。GNN通过几个神经层传播和聚合节点特征来组合图结构,从特征传播中获得预测。而LPA通过标签传播迭代地对未标记的实例进行预测。
由于GNN和LPA基于相同的假设,通过信息传播进行半监督分类,因此直觉认为将它们结合在一起可以提高性能。一些优秀的研究提出了基于它的图模型。例如,使用GNN的APPNP[Klicpera等人,2018]和TPN[Liu等人,2019]预测软标签,然后传播它们,而GCN-LPA[Wang和Leskovec,2019]使用LPA正则化其GNN模型。
Table 1: Comparison the input information that message passing models use in training and inference.
表1:比较消息传递模型在训练和推理中使用的输入信息。
然而,如表1所示,上述方法仍然不能直接将GNN和LPA合并到消息传递模型中,在训练和推理过程中传播特征和标签。
在这项工作中,我们提出了一个统一的消息传递模型(UNiMP),用两个简单但有效的想法来解决上述问题:
- 将节点特征传播与标签相结合;(b)屏蔽标签预测。
以往基于GNN的方法仅将节点特征作为输入,并使用部分观察到的节点标签进行监督训练。他们在推理过程中丢弃了观察到的标签。UNiMP在训练和推理阶段都利用了节点特征和标签。它使用嵌入技术将部分节点标签从一个热节点特征转换为密集的类向量节点特征。多层图变换网络将其作为输入,在节点之间进行注意力信息传播。因此,每个节点都可以聚合来自其邻居的特征和标签信息。
由于我们将节点标签作为输入,因此将其用于监督训练将导致标签泄漏问题。该模型将在自循环输入标签中过度拟合,而推理性能较差。
为了解决这个问题,我们提出了一种掩蔽标签预测策略,该策略随机屏蔽一些训练实例的标签,然后预测它们以克服标签泄漏。这种简单有效的训练方法借鉴了BERT中的掩蔽词预测[Devlin等人,2018],并模拟了将标签从图中的标记示例转换为未标记示例的过程。
我们在开放图基准(OGB)的三个半监督分类数据集上评估了我们的UNiMP模型,其中我们的新方法在所有任务中都取得了最新的结果,在ogbn产品中获得了82.56%的ACC,在ogbn蛋白质中获得了86.42%的ROC-AUC,在ogbn arxiv中获得了73.11%的ACC。
我们还对我们的UNiMP模型进行了消融研究,以评估我们统一方法的有效性。此外,我们对标签传播如何提高模型性能进行了最彻底的分析。
补充知识
提出的方法&模型架构
统一消息传递模型
如图1所示,给定节点特征X和部分观察到的标签Yˆ,我们使用Graph Transformer,联合使用标签嵌入将上述特征和标签传播结合在一起,构建我们的UniMP模型。此外,引入了一种屏蔽标签预测策略来训练我们的模型,以防止标签泄漏问题。
Figure 1: The architecture of UniMP.
Graph Transformer
Label Embedding and Propagation 标签嵌入和传播
Masked Label Prediction 屏蔽标签预测
数据集
数据集。与实际应用中的图相比,大多数常用的图数据集都非常小。由于一些问题,包括其小规模性质、不可忽略的重复或泄漏率、不真实的数据分割,GNN在这些数据集上的性能不稳定[Hu等人,2020]。因此,我们在最近发布的开放图基准(OGB)数据集上进行了实验[Hu等人,2020],这克服了常用数据集的主要缺点,因此更具现实性和挑战性。OGB数据集涵盖了各种实际应用,涵盖了从社会和信息网络到生物网络、分子图和知识图等多个重要领域。它们还跨越节点、图和链接/边级别的各种预测任务。
如表2所示,在这项工作中,我们在三个不同大小和任务的OGBN数据集上进行了实验,以获得可靠的结果,包括OGBN产品,约47个产品类别,具有给定的100维节点特征,ogbn蛋白质约112种蛋白质的功能预测具有给定的8维边缘特征,ogbn arxiv约40类主题分类具有给定的128维节点特征。补充文件附录A中提供了有关这些数据集的更多详细信息。
Table 2: Dataset statistics of OGB node property prediction
表2:OGB节点属性预测的数据集统计数据
实施细节。如上所述,这些数据集在大小或任务上彼此不同。因此,根据之前的研究[Li等人,2020],我们使用不同的抽样方法对我们的模型进行了评估,得到了可信的比较结果。在ogbn产品数据集中,我们使用每层大小为10的Neigh-borSampling在训练期间对子图进行采样,并使用全批次进行推理。在ogbn蛋白质数据集中,我们使用随机划分将稠密图分解为子图来训练和测试我们的模型。对于小规模的ogbn arxiv数据集,我们只应用整批进行训练和测试。我们在表3中为每个数据集设置了模型的超参数,标签率表示我们在应用掩码标签预测策略期间保留的标签百分比。我们使用lr=0.001的Adam优化器来训练我们的模型。特别是,我们在小尺寸ogbn arxiv数据集中将模型的权重衰减设置为0.0005,以防止过度拟合。补充文件附录B中提供了有关调谐超参数的更多详细信息。
实验