Semi-supervised Learning on Graphs with Generative Adversarial Nets

本文探讨了如何利用生成对抗网络(GANs)改进图的半监督学习。研究了图的结构,提出了GraphSGAN模型,该模型通过在低密度区域生成假样本,帮助分类器区分真伪样本,提升分类准确性。实验结果表明,GraphSGAN在多个数据集上表现出优于现有方法的性能,并具有可扩展性优势。
摘要由CSDN通过智能技术生成

ABSTRACT

我们研究了生成对抗网(GANs)如何帮助图的半监督学习。我们首先介绍了图的对抗学习的工作原理,然后提出了图的半监督学习的一种新方法GraphSGAN。在GraphSGAN中,生成器和分类器网络进行了一种新颖的竞争博弈。在平衡状态下,生成器在子图之间的低密度区域生成假样本。为了区分真假样本,分类器隐式地考虑了子图的密度特性。提出了一种有效的对抗学习算法,在理论上保证了对传统规范化图拉普拉斯正则化的改进。

在几种不同类型的数据集上的实验结果表明,所提出的GraphSGAN明显优于几种最新的方法。GraphSGAN还可以使用小批量进行训练,因此具有可扩展性优势。

关键字:图学习;semi-supervised学习;生成对抗的网络

1 INTRODUCTION

图的半监督学习在理论和实践中都引起了极大的关注。它的基本设置是给我们一个由一小组有标记的节点和一组大的未标记节点组成的图,目标是学习一个能够预测未标记节点的标记的模型。

关于图的半监督学习有很多工作要做。研究的一个重要范畴是基于图的拉普拉斯正则化框架。例如,朱等。[41]提出了一种称为标签传播(Label Propagation)的方法来学习图上有标记和未标记的数据,后来Lu和Getoor在bootstrap迭代框架下对该方法进行了改进。Blum和Chawla[4]还将图学习问题归结为求图的最小割。朱等。[42]提出了一种基于高斯随机场和形式化图-拉普拉斯正则化框架的算法。Belkin等人。[2] 提出了一种利用边缘分布几何进行半监督学习的正则化方法ManiReg。第二类研究是将半监督学习与图嵌入相结合。Weston等人。[37]首先将深度神经网络纳入图拉普拉斯正则化框架,用于半监督学习和嵌入。Yang等人。[38]提出了联合学习图嵌入和预测节点标记的Planetoid模型。最近,Defferrard等人。[9] 利用局部谱切比雪夫滤波器对图进行卷积以完成机器学习任务。图卷积网络(GCN)[17]及其基于注意技术的扩展[34]展示了强大的能力,并在这个问题上取得了最先进的性能。

本文研究了生成对抗网(GANs)在图的半监督学习中的潜力。GANs[13]最初是为生成图像而设计的,通过训练两个神经网络来进行最小-最大博弈:鉴别器D[discriminator D]试图区分真样本和假样本,而生成器G[ generator]试图生成“真实”样本来愚弄鉴别器D据我们所知,利用GANs在图上进行半监督学习的研究还很少。

本文提出了一种新的图的半监督学习方法GraphSGAN。GraphSGAN将图拓扑映射到特征空间,并联合训练生成网络和分类器网络。以前的研究[8,18]试图解释半监督机构的工作原理,但只发现在互补区域生成适度的假样本有利于分类和在强假设下进行分析。本文从博弈论的角度解释了该模型的工作原理。我们有一个有趣的观察,在子图之间的低密度区域中的假样本可以减少附近样本的影响,从而有助于提高分类精度。在这个观察的指导下,设计了一个新颖的类似GAN的游戏。精密损耗保证了生成器 generator在这些低密度区域产生的样品处于平衡状态。另外,结合观察结果,图拉普拉斯正则化框架(方程(9))可以利用聚类特性进行稳定的改进。理论上可以证明,这种对抗学习技术可以在生成样本丰富但有限的图上获得理想的半监督学习分类。

在不同类型的数据集上对所提出的GraphSGAN进行了评价.实验结果表明,graphsgans明显优于几种最新的方法。GraphSGAN还可以使用小批量进行训练,因此具有可扩展性优势。

我们的贡献如下:

  • 我们引入GANs作为一个工具来解决半监督设置下的图的分类任务。GraphSGAN在图的低密度区域生成假样本,并利用聚类特性帮助分类。
  • 提出了一种新颖的GraphSGAN生成器与鉴别器的竞争博弈模型,并对训练过程中的动力学、平衡和工作原理进行了深入的分析。此外,总结了算法的工作原理,对传统算法进行了改进。理论证明和实验验证均说明了该方法的有效性。

  • 我们在不同尺度的数据集上对我们的模型进行了评估。GraphSGAN的性能明显优于以前的工作,并且展示了出色的可伸缩性。

论文的其余部分安排如下。在第二节中,我们介绍了必要的定义和定义。在第三节中,我们展示了图形,并详细讨论了为什么以及如何设计模型。第四节对GraphSGAN的工作原理进行了理论分析。我们在第5节概述了我们的实验,并展示了我们的模型的优越性。最后,我们总结了第6节中的相关工作和我们的结论。

2 PRELIMINARIES准备工作

2.1 Problem Definition

设G=(V,E)表示一个图,其中V是一组节点,E⊆V×V是一组边。假设每个节点vi与一个k维实值特征向量wi∈Rk 和一个标签yi∈{0,…,M−1}相关联。如果节点vi 的标签yi 是未知的,我们说节点 vi是一个未标记的节点。我们把有标记节点集表示为V^{L}和未标记节点集表示为。通常,我们有。我们也把图G称为部分标记图[31]。在此基础上,我们可以形式化地定义图上的半监督学习问题。

定义1。图的半监督学习。给定一个部分标记的图G=(VL∪VU,E),这里的目标是使用与每个节点和图形结构相关联的特征w来学习函数f,以便预测图中未标记节点的标签。

请注意,在半监督学习中,训练和预测通常是同时进行的。在这种情况下,学习同时考虑了有标记的节点和未标记的节点,以及整个图的结构。在本文中,我们主要考虑的是传导式学习设置,虽然所提出的模型也可以应用到其他机器学习环境中。此外,我们只考虑无向图,但是对有向图的扩展是直接的。

2.2 Generative Adversarial Nets (GANs)生成对抗网(GANs)

GAN[13]是一种通过对抗过程估计生成模型的新框架,其中对生成模型G【generative model G】进行训练,使其与原始训练数据最佳拟合,训练判别模型D【discriminative model D】区分真实样本和模型G生成的样本。该过程可以形式化为一个介于G和D之间的最小-最大博弈,具有以下损耗(值)函数:

其中pd是来自训练数据的数据分布,pz(z)是输入噪声变量的先验值。

3 MODEL FRAMEWORK 模型框架

3.1 Motivation

现在我们将介绍如何利用GANs的能力进行图的半监督学习。直接将GAN应用于图学习是不可行的,因为它没有考虑图的结构。为了说明GANs如何帮助图的半监督学习,我们从一个例子开始。图1中的左图显示了基于图的半监督学习的一个典型示例。两个标记节点分别为蓝色和橙色。传统的方法如标签传播[41]没有考虑图的拓扑结构,因此无法区分从节点 v+到节点v1、v2和v3的传播。仔细看一下图的结构,我们可以看到有两个子图。我们把这两个子图之间的面积称为密度差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值