Conditional GAN 全文翻译

有条件的对抗生成网络

摘要

最近,GenerativeAdversarialNets[8]被引入作为训练生成模型的新方法。在这项工作中,我们介绍了生成对抗网络的条件版本,它可以通过 简单地提供数据来构造,我们希望对生成器G和判别器D都进行条件化。本文将展示该模型可以生成以类标签为条件的MNIST数字。我们还说明了如何使用此模型来学习一个多模态模型,并提供了图像标记应用的初步示例,其中我们演示了此方法如何生成不属于训练标签的描述性标记。

1 介绍

生成对抗网络GAN最近被引入作为训练生成模型的替代框架,因为GAN可以绕过许多难以处理的概率计算的困难。

对抗网络具有以下优点:永远不需要马尔可夫链,仅使用反向传播来获得梯度,在学习期间 不需要推理,并且可以容易地将各种因素和相互作用结合到模型中。

在无条件的生成模型中,模型无法控制正在生成的数据的模式。但是,通过将附加信息作为条件条件化(conditioning)模型,可以指导数据生成过程。这种条件化可以基于类标签,也可以基于图像修复数据的一部分,如[5],甚至是来自不同模态的数据。

在这项工作中,我们展示了如何构建有条件的(conditional)对抗网络。对于实证结果,我们展示了两组实验。一组在MNIST数字数据集1上以类标签为条件。一组在MIRFlickr25,000数据集[10]上用于多模态学习。

2 相关工作
2.1 图像标注中的多模态学习

尽管最近监督神经网络(特别是卷积网络)取得了许多成功[13,17],但仍然难以扩展此类模型以适应极大量的、可预测的输出类别。第二个问题是,迄今为止的大部分工作都集中在,学习从输入到输出的一对一映射。然而,许多有趣的问题更自然地被认为是概率性的一对多映射。例如,在图像标记的情况下,许多不同的tags都可以适当地描述一幅给定图像;并且不同的注释器(即人)可以使用不同的(但通常是同义的或相关的)术语来描述同一幅图像。

帮助解决第一个问题的一种方法是利用来自其他模态的附加信息:例如,通过使用自然语 言语料库来学习几何关系在语义上有意义的标签的向量表示。当在这样的空间中进行预测 时,我们从以下事实中受益:当预测错误时我们仍然经常“接近”事实(例如,预测“桌子”而不是“椅子”),此外,我们还可以自然地对训练期间未见的标签进行预测性概括。诸如[3]之类的作品表明,即使从图像特征空间到字表示空间的简单线性映射,也可以产生改进 的分类性能。

解决第二个问题的一种方法是使用条件概率生成模型,输入被视为条件变量,并且一对多映射被实例化为条件预测分布。

[16]对这个问题采取了类似的方法,并在MIRFlickr25,000数据集上训练多模态的深层玻尔兹曼机,就像我们在这项工作中所做的那样。

此外,在[12]中,作者展示了如何训练一个有监督的多模态神经语言模型,并且他们能够为图像生成描述性句子。

有条件的对抗网络
3.1 生成对抗网络

GAN最近被引入并作为训练生成模型的新方法。GAN由两个“对抗”模型组成:一个是捕获 数据分布的生成器G,另一个是估计样本来自训练数据而不是G的概率的判别器D。G和D都 可以是非线性的映射函数,例如多层感知器。

为了在数据datax上学习生成器分布pg,生成器G从先前的噪声分布Pz(z)到数据空间建立映射函数,作为G(z;θg)。接下来判别器D(x;θd)输出单个标量,该标量表示x来自训练数据而不是pg的概率。

G和D同时开始训练:我们调整G的参数以最小化log(1-D(G(z))并调整D的参数以最小化logD(X),就好像它们遵循双人min-max游戏一样具有值函数V(G,D):
公式1

3.2 有条件的对抗网络

如果生成器G和判别器D都以某些额外信息y为条件,则GAN可以被扩展到一个条件模型。y可以是任何类型的辅助信息,例如类标签或来自其他模态的数据。我们可以通过,将y作为附加输入层喂入判别器D和生成器G,来完成GAN的条件化。

在生成器G中,将先前的输入噪声pz(Z)和条件y合并为联合隐式表示。并且在如何组成该 隐藏表示方面,对抗训练框架有相当大的灵活性。1

在判别器D中,x和y被表示为输入和判别函数(在这种情况下通过MLP再次体现)。

双人min-max游戏的目标函数是:
公式2
图1说明了简单条件对抗网络的结构。
图1

4 实验结果
4.1单模态

我们在MNIST图像集上,以其类标签为条件、采用独热编码训练了条件对抗网络。
在生成网络G中,从单位超立方体内的均匀分布中得出100维的噪声z。噪声z和条件y都被 映射到ReLU激活函数[4,11]的隐藏层,每层的大小分别为200和1000,在将两者映射到第二层之前,组合成一个1200维的隐藏ReLU层。然后我们有一个最后的sigmoid单元层作为生成784维MNIST样本的输出。

1现在我们只是将条件输入和先前噪声作为MLP的单个隐藏层的输入。但人们可以想象,使用更高层次的交互作用,将允许复杂的生成机制,这在一个传统的生成框架里是极其困难的工作。

表1
判别器D将数据x映射到一个包含240个units和5个pieces的maxout[6]层,同时D将条件y映射到具有50个units和5个pieces的maxout层。两个隐藏层在被喂入到sigmoid层之前映射到具有240个units和4个pieces的联合maxout层。(只要判别器D足够厉害,那它的精确结构就不是那么重要;我们发现maxout单元通常非常适合该任务。)

该模型采用随机梯度下降训练,min-batch的size为100,初始学习率为0.1,指数下降至.000001,衰 减系数为1.00004。还使用动量,初始值为.5,增加到0.7。在生成器G和判别器D使用0.5的dropout。并且验证集上的、对数似然的最佳估计被用作停止点。

表1显示了MNIST数据集测试数据的高斯Parzen窗口对数似然估计。从每10个样品中抽取1000个样品,并将高斯Parzen窗口装配到这些样品上。然后,我们使用Parzen窗口分布 估 计测试集的对数似然。(有关如何构建此估计的更多详细信息,请参见[8]。)

我们提出的条件对抗网络的结果与其他的一些基于网络的(模型)的结果相当,但是(条件对抗网络)要优于许多种其他的、包含非条件对抗网络方法(包括非条件对抗网络)。我们给出的这些结果更多地作为概念验证而不是效力的证明,并且相信通过进一步探索超参数空间和架构,条件模型应该可以匹配或超过非条件结果。

图2显示了一些生成的样本。每行以一个标签为条件,每列是不同的生成样本。
图2
图2:生成的MNIST数字,每行以一个标签为条件

4.2 多模态

诸如Flickr之类的照片网站是 图像形式的标记数据 及 用户生成的相关元数据UGM(特别是用户标签)的丰富来源。

用户生成的元数据metadata与更多“规范”图像标记方案的不同之处在于:它们通常更具描述性,并且在语义上更接近人类如何用自然语言描述图像,而不仅仅是识别图像中存在的对象。UGM 的另一个方面是:synoymy是普遍的,不同的用户可能使用不同的词汇来描述相同的概念,因此,有一种有效的方法来规范化这些标签变得很重要。概念词嵌入Conceptual word embedding[14]在这里非常有用,因为相关概念最终由类似的向量表示。

在本节中,我们演示了具有多标签预测的、图像自动标记,使用条件对抗网络生成一个条件是图像特征的、(可能是多模态的)标签向量分布。

对于图像特征,我们预先训练一个卷积模型,该模型与在拥有21000个标签的全部ImageNet数据集上得到的模型[13]相似。我们使用最后一个全连接层的输出作为图像表示,其中该层有4096个unit。

对于世界表示,我们首先从YFCC100M2数据集中的元数据的用户标签、标题和描述的关联中收 集一个文本语料库。在对文本进行预处理和清理之后,我们训练了一个词向量大小为200的skip-gram模型[14]。我们省略了从词汇表中出现次数少于200次的所有单词,从而最终得到一个大小为247465的字典。

我们在对抗网络的训练期间保持卷积模型和语言模型的固定。当我们在这些模型中反向传播时,留下这些实验experiment(?)作为未来的工作。

对于我们的实验,我们使用MIRFlickr25,000数据集[10],并使用上述的卷积模型和语言模型提取图像和标签特征。我们的实验中省略了没有任何标签的图像,并将注释视为额外标签。前150,000个例子被用作训练集。对于每个相关标签,在训练集内重复具有多个标签的图像一次。(我的理解:如果一个图像有10个标签,对于每个标签要重复一次,即在训练集中要重复十次)

为了评估,我们为每个图像生成100个样本,并为每个样本(使用词汇表中词向量表示的余弦相似性)找到前20个最接近的单词。然后我们在所有100个样本中选择前10个最常用的单 词。表4.2显示了用户分配的标签和注释以及生成的标签的一些示例。

最佳的工作模型的生成器G接收大小为100的高斯噪声作为先验噪声,并将其映射到500维的ReLU层。同时将4096维图像特征向量映射到2000维ReLu隐藏层。这两个层都被映射到一个200维线性层的联合表示joint representation,它将输出生成的词向量。

判别器D由用于500维的词向量和1200维的图像特征的ReLu隐藏层,1000个unit 的maxout层和3个作为连接层的层组成,最终喂入到一个单一的sigmoid单元。

该模型采用随机梯度体积训练,mini-batch的大小为100,初始学习速率为0.1,指数下降至.000001,衰 减系数为1.00004。还使用动量,初始值为.5,增加到0.7。对判别器D和生成器G应用dropout,值为0.5。

超参数和架构选择是通过交叉验证以及随机网格搜索和手动选择的混合获得的(尽管在一个有限的搜索空间内)。

5 未来的工作

本文中显示的结果非常初级,但它们展示了条件对抗网络的潜力,并展示了有趣有用的应用前景。

在从现在到研讨会之间的未来探索中,我们希望展示更复杂的模型,以及对其性能和特征的更详细和深入的分析。table2
此外,在当前的实验中,我们仅单独使用每个标签。但是我们希望通过同时使用多个标签(有效地 将生成问题作为’集合生成set generation’之一)来获得更好的结果。

未来工作的另一个明显方向是建立一个联合训练计划来学习语言模型。诸如[12]之类的工作表明我们可以学习适合特定任务的语言模型。

致谢

该项目是在Pylearn2[7]框架中开发的,我们要感谢Pylearn2开发人员。我们还要感谢Ian Goodfellow在蒙特利尔大学期间进行的有益讨论。作者非常感谢Flickr视觉与机器学习和生产工程团队的支持。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值