SAGAN

Abstract

在本文中,我们提出了自注意力生成对抗网络(SAGAN),它允许对图像生成任务进行注意力驱动的远程依赖建模。传统卷积GaN仅根据低分辨率特征地图中的空间局部点生成高分辨率细节。在SAGAN中,可以使用来自所有特征位置的线索生成细节。此外,鉴别器可以检查图像远处的高度细节特征是否彼此一致。此外,最近的研究表明,发电机调节影响GAN性能。利用这一见解,我们将光谱归一化应用于GAN发生器,并发现这改善了训练动态。拟议的SAGAN性能优于先前的工作1,将最佳发布初始得分从36.8提高到52.52,并将具有挑战性的ImageNet数据集上的Frèechet初始距离从27.62降低到18.65。注意力层的可视化显示,生成器利用与对象形状相对应的邻域,而不是固定形状的局部区域。

1. Introduction

图像合成是计算机视觉中的一个重要问题。随着生成性对抗网络(GAN)的出现,这方面取得了显著进展(Goodfello等人,2014年),但仍存在许多开放性问题(Odena,2019年)。基于深度卷积网络的GAN(Radford等人,2016;Karras等人,2018;Zhang等人)尤其成功。然而通过仔细检查从这些模型中产生的样品,我们可以观察到卷积GaN(Odena等人,2017;Miyato等人,2018;MiyatoKoyama,2018)在多类数据集上训练时,在建模某些图像类时比其他图像类困难得多(例如,ImageNet(Russakovsky等人,2015))。例如,虽然最先进的ImageNet GAN模型(Miyato&Koyama,2018)擅长合成具有少量结构约束的图像类(例如,海洋、天空和景观类,它们更多地通过纹理而不是几何体区分),但是,它无法捕捉某些类中一致出现的几何或结构模式(例如,狗通常使用真实的毛发纹理绘制,但没有明确定义的独立脚)。对此的一种可能解释是,以前的模型严重依赖于卷积来建模不同图像区域之间的相关性。由于卷积算子有一个局部感受野,长程相关性只能在通过几个卷积层后处理。由于各种原因,这可能会阻止对长期相关性的了解:小模型可能无法表示它们,优化算法可能难以发现仔细协调多个层以捕获这些相关性的参数值,并且这些参数化在应用于以前未看到的输入时可能在统计上很脆弱,并且容易失败。增加卷积核的大小可以增加网络的表示能力,但这样做也会损失通过使用局部卷积结构获得的计算和统计效率。另一方面,自我关注(Cheng等人,2016;Parikh等人,2016年;V aswani等人,2017年)在建模长期相关性的能力与计算和统计效率之间表现出更好的平衡。自我注意力模块将某个位置的响应计算为所有位置特征的加权和,其中权重(或注意力向量)的计算成本很小。

在这里插入图片描述
【图1.所提出的SAGAN通过利用图像远处的互补特征而不是固定形状的局部区域来生成一致的对象/场景,从而生成图像。在每一行中,第一幅图像显示了带有彩色编码点的五个代表性查询位置。其他五幅图像是这些查询位置的注意力图,对应的彩色编码箭头概括了最受关注的区域。】

在这项工作中,我们提出了自注意生成对抗网络(SAGAN),它将自注意机制引入卷积GAN。自我注意模块是卷积的补充,有助于跨图像区域建模长距离、多层次的相关性。通过自我关注,生成器可以绘制图像,其中每个位置的精细细节与图像远处的精细细节仔细协调。此外,鉴别器还可以更精确地识别全局图像结构上的复杂几何约束。

除了自我关注之外,我们还结合了网络调节与GAN性能相关的最新见解。(Odena等人,2018年)的研究表明,条件良好的发电机往往表现更好。我们建议使用之前仅适用于鉴别器的光谱归一化技术对GAN发生器进行良好调节(Miyato等人,2018)。

我们在ImageNet数据集上进行了大量实验,以验证所提出的自我注意机制和稳定技术的有效性。SAGAN在图像合成方面的表现明显优于之前的工作,它将最佳报告的初始得分从36.8提高到52.52,并将Fréchet初始距离从27.62降低到18.65。注意力层的可视化显示,生成器利用了与对象形状相对应的邻域,而不是固定形状的局部区域。我们的代码可在https://github.com/
brain-research/self-attention-gan

2. Related Work

生成性对抗网络。GANs在各种图像生成任务中取得了巨大成功,包括图像到图像的翻译(Isola等人,2017;Zhu等人,17;Taigman等人,2017年;Liu&Tuzel,2016;Xue等人,2018;Park等人,2019),图像超分辨率(Ledig等人,2017,Snderby等人,2017)和文本到图像的合成(Reed等人,2016b;a;Zhang等人,2018年;Hong等人,2018)。尽管取得了这一成功,但已知GANs的训练是不稳定的,并且对超参数的选择敏感。有几项工作试图通过设计新的网络架构(Radford等人,2016年;Zhang等人,2017年;Karras等人,2018年;2019年)、修改学习目标和动态(Arjovsky等人,2019年;Salimans等,2018年、Metz等,2017年、Che等人,17年;Zhao等人,2017;Jolicoeur Martineau,2019)来稳定GAN训练动态并改善样本多样性,添加正则化方法(Gullajani等人,2017年;Miyato等人,2018年)并引入启发式技巧(Salimans等人,2016年;Odena等人,2017;Azadi等人,2018)。最近,Miyato等人(Miyato et al.,2018)提议限制鉴别器中权重矩阵的谱范数,以约束鉴别器函数的Lipschitz常数。结合基于投影的鉴别器(Miyato&Koyama,2018),光谱归一化模型极大地改进了ImageNet上的类条件图像生成。

注意模型。最近,注意力机制已成为必须捕捉全局相关性的模型的一个组成部分(Bahdanau等人,2014年;Xu等人,2015年;Y ang等人,2016年;Gregor等人,2015;Chen等人,2018年)。特别是,自我注意(Cheng等人,2016;Parikh等人,2016),也称为内部注意,通过关注同一序列中的所有位置来计算序列中某个位置的反应。V aswani等人(V Aswany等人,2017年)证明,机器翻译模型可以通过单独使用自我注意模型实现最先进的结果。Parmar等人(Parmar et al.,2018)提出了一种图像变换模型,将自我关注添加到图像生成的自回归模型中。Wang等人(Wang等人,2018年)将自我注意正式化为一种非局部操作,以模拟视频序列中的时空相关性。尽管取得了这一进展,但尚未在GANs的背景下探索自我关注。(AttnGAN(Xu等人,2018年)在输入序列中使用了对单词嵌入的注意,但在内部模型状态中没有使用自我注意)。萨根学会了在图像的内部表示中高效地找到全局、远程、独立的注意力生成对抗网络密度。

3. Self-Attention Generative Adversarial Networks

用于图像生成的大多数基于GAN的模型(Radford等人,2016;Salimans等人,2016年;Karras等人,2018年)都是使用卷积层构建的。卷积处理局部邻域中的信息,因此单独使用卷积层在计算上对图像中的长距离依赖关系建模是低效的。在本节中,我们采用了(Wang等人,2018)的非局部模型,将自我关注引入GAN框架,使生成器和鉴别器能够有效地建模广泛分离的空间区域之间的关系。我们将提出的方法称为自关注生成对抗网络(SAGAN),因为它具有自关注模块(见图2)。

来自上一个隐藏层x的图像特征∈ RC×N首先被转换成两个特征空间f,g来计算注意力,其中f(x)=Wf x,g(x)=Wgx

在这里插入图片描述

βj表示合成第j个区域时模型关注第i个位置的程度。这里,C是通道数,N是来自上一个隐藏层的特征的特征位置数。注意层的输出为o=(o1,o2,…,oj,…,oN)∈ RC×N,其中,
在这里插入图片描述

在上述配方中∈ R_ C×C,Wf∈ R_ C×C,Wh∈ R_ C×C和Wv∈ RC×。因为我们在ImageNet上经过几次训练后,将“C”的通道数减少到C/k(其中k=1、2、4、8)时,没有发现任何显著的性能下降。为了提高内存效率,我们在所有实验中都选择k=8(即“C=C/8”)。

此外,我们还将注意力层的输出与比例参数相乘,并将输入特征图加回。因此,最终输出由下式给出:,
在这里插入图片描述

其中γ是一个可学习的标量,初始化为0。引入可学习的γ允许网络首先依赖局部邻域中的线索——因为这更容易——然后逐渐学会为非局部证据分配更多权重。我们这样做的直觉很简单:我们想先学习简单的任务,然后逐步增加任务的复杂性。在SAGAN中,提出的注意力模块已应用于生成器和鉴别器,通过最小化敌对损失的铰链版本以交替方式进行训练(Lim&Ye,2017;Tran等人,2017;Miyato等人,2018),

在这里插入图片描述

4. Techniques to Stabilize the Training of GANs

我们还研究了在具有挑战性的数据集上稳定GAN训练的两种技术。首先,我们在生成器和鉴别器中使用光谱归一化(Miyato等人,2018)。其次,我们确认双时间尺度更新规则(TTUR)(Heusel等人,2017)是有效的,我们主张专门使用它来解决正则化鉴别器中的缓慢学习问题。

在这里插入图片描述
【图2.拟议的萨根自我关注模块。这个⊗ 表示矩阵乘法。对每行执行softmax操作。】

4.1. Spectral normalization for both generator and discriminator

Miyato等人(Miyato et al.,2018)最初提出通过对鉴别器网络应用频谱归一化来稳定GAN的训练。这样做通过限制每个层的谱范数来限制鉴别器的Lipschitz常数。与其他归一化技术相比,光谱归一化不需要额外的超参数调整(将所有权重层的光谱范数设置为1在实践中始终表现良好)。此外,计算成本也相对较小。

我们认为,基于最近的证据,发生器的调节是GANs性能的一个重要原因,发生器也可以从频谱归一化中受益(Odena et al.,2018)。发生器中的频谱归一化可以防止参数幅度的升级,并避免异常梯度。我们从经验上发现,生成器和鉴别器的谱归一化使得每次生成器更新使用较少的鉴别器更新成为可能,从而显著降低了训练的计算成本。该方法还显示出更稳定的训练行为。

4.2. Imbalanced learning rate for generator and discriminator updates

在以前的工作中,鉴别器的正则化(Miyato等人,2018年;Gullajani等人,2017年)通常会减慢GANs的学习过程。在实践中,使用正则化鉴别器的方法通常需要在训练期间每个生成器更新步骤多个(例如,5个)鉴别器更新步骤。独立地,Heusel等人(Heusel et al.,2017)主张对生成器和鉴别器使用单独的学习率(TTUR)。我们建议特别使用TTUR来补偿正则化鉴别器中学习速度慢的问题,从而可以在每个生成器步骤中使用更少的鉴别器步骤。使用这种方法,我们能够在相同的挂钟时间下产生更好的结果。

5. Experiments

为了评估提出的方法,我们在LSVRC2012(ImageNet)数据集上进行了广泛的实验(Russakovsky等人,2015)。首先,在第5.1节中,我们介绍了旨在评估两种拟议技术对稳定甘斯训练的有效性的实验。接下来,第5.2节研究了拟议的自我注意机制。最后,在第5.3节的图像生成任务中,将我们的SAGAN与最先进的方法(Odena等人,2017;Miyato&Koyama,2018)进行了比较。使用同步SGD,模型在每个4个GPU上进行了大约2周的训练(因为异步SGD存在众所周知的困难-参见(Odena,2016))。

评估指标。我们选择初始得分(IS)(Salimans等人,2016年)和Frèechet初始距离(FID)(Heusel等人,2017年)进行定量评估。尽管存在替代品(Zhou等人,2019年;Khrulkov&Oseledets,2018年;Olsson等人,2018年),但它们并未被广泛使用。初始得分(Salimans等人,2016)计算了条件类分布和边缘类分布之间的KL差异。初始分数越高表示图像质量越好。我们包括初始分数,因为它被广泛使用,因此可以将我们的结果与以前的工作进行比较。然而,重要的是要理解初始得分有严重的局限性。其主要目的是确保模型生成的样本能够被自信地识别为属于特定类别,并且模型从许多类别生成样本,而不一定是为了评估细节的真实性或类内多样性。FID是一种更具原则性和综合性的指标,已证明在评估生成样本的真实性和变化时更符合人类评估(Heusel et al.,2017)。FID计算在Inception-v3网络的特征空间中生成的图像和真实图像之间的Wasserstein-2距离。除了在整个数据分布(即ImageNet中的所有1000类图像)上计算的FID外,我们还计算了每个类中生成的图像和数据集图像之间的FID(称为内部FID(Miyato&Koyama,2018))。较低的FID和FID内值意味着合成数据分布和真实数据分布之间的距离更近。在我们的所有实验中,为每个模型随机生成50k个样本,以计算初始分数、FID和内部FID。

网络结构和实现细节。我们训练的所有SAGAN模型都设计为生成128×128图像。默认情况下,频谱归一化(Miyato等人,2018)用于生成器和鉴别器中的层。与(Miyato&Koyama,2018)类似,SAGAN在生成器中使用条件批量归一化,在鉴别器中使用投影。对于所有模型,我们使用β1=0和β2=0.9的Adam优化器(Kingma&Ba,2015)进行训练。默认情况下,鉴别器的学习率为0.0004,生成器的学习率是0.0001。

在这里插入图片描述
【图3.基线模型和我们的模型的训练曲线,以及拟议的稳定技术、“G/D上的SN”和双时标学习率(TTUR)。所有模型均采用G和D的1:1平衡更新进行训练。】

在这里插入图片描述
【图4.由基线模型和我们的模型“G/D上的SN”和“G/D上的SN+TTUR”随机生成的128×128个示例。】

5.1. Evaluating the proposed stabilization techniques

在本节中,进行实验以评估所提出的稳定技术的有效性,即对发生器应用频谱归一化(SN)并利用不平衡学习率(TTUR)。在图3中,我们的模型“G/D上的SN”和“G/D上的SN+TTUR”与基线模型进行了比较,基线模型是基于最先进的图像生成方法实现的(Miyato等人,2018)。在该基线模型中,SN仅用于鉴别器。当我们用鉴别器(D)和生成器(G)的1:1平衡更新对其进行训练时,训练变得非常不稳定,如图3最左边的子图所示。它在训练早期就表现出模式崩溃。例如,图4左上方的子图显示了基线模型在第10k次迭代时随机生成的一些图像。虽然在原始论文(Miyato等人,2018年)中,通过对D和G使用5:1不平衡更新,这种不稳定的训练行为得到了极大缓解,但为了提高模型的收敛速度,需要使用1:1平衡更新进行稳定训练。因此,使用我们提出的技术意味着,在相同的挂钟时间下,该模型可以产生更好的结果。因此,不需要为生成器和鉴别器搜索合适的更新比率。如图3中间的子图所示,将SN添加到生成器和鉴别器中大大稳定了我们的模型“G/D上的SN”,即使它是用1:1平衡更新训练的。然而,在训练期间,样本的质量并没有单调地提高。例如,通过FID和IS测量的图像质量在第260k次迭代时开始下降。该模型在不同迭代中随机生成的示例图像如图4所示。当我们还应用不平衡学习率来训练鉴别器和生成器时,我们的模型“G/D+TTUR上的SN”生成的图像质量在整个训练过程中单调提高。如图3和图4所示,在一百万次训练迭代期间,我们没有观察到样本质量或FID或初始得分的任何显著下降。因此,定量结果和定性结果都证明了所提出的用于GANs训练的稳定技术的有效性。他们还证明了这两种技术的效果至少部分是相加的。在其余的实验中,所有模型都对生成器和鉴别器使用频谱归一化,并使用不平衡学习率以1:1的更新来训练生成器和鉴识器。
在这里插入图片描述
【表1.GANs上自我注意和剩余阻滞的比较。这些块被添加到网络的不同层中。所有模型都经过了一百万次迭代的训练,并报告了最佳初始得分(IS)和最佳初始距离(FID)。f eatk意味着将自我关注添加到k×k特征图中。】

5.2. Self-attention mechanism.

为了探索所提出的自我注意机制的效果,我们通过将自我注意机制添加到生成器和鉴别器的不同阶段,构建了几个萨根模型。如表1所示,具有自我注意机制的萨根模型处于中高水平特征图(例如f eat32和f eat64)比具有低水平特征图的自注意机制的模型(例如f eat8和f eat16)实现更好的性能。例如,“SAGAN,f eat8”模型的FID通过“SAGAN,f eat32”从22.98提高到18.28。原因在于,自我关注获得了更多的证据,并且可以更自由地选择具有更大特征映射的条件(即,它是对大特征映射卷积的补充),然而,在建模小(例如8×8)特征映射的依赖关系时,它与局部卷积起到了类似的作用。它表明,注意机制为生成器和鉴别器提供了更大的能力,可以直接建模特征图中的长程依赖关系。此外,我们的SAGAN模型与无注意的基线模型的比较(表1第2列)进一步显示了所提出的自我注意机制的有效性。

与参数数目相同的残差块相比,自关注块也获得了更好的结果。例如,当我们用8×8特征图中的剩余块替换自我注意块时,训练不稳定,这导致性能显著下降(例如,FID从22.98增加到42.13)。即使在训练顺利进行的情况下,用剩余块替换自我注意力块仍然会导致FID和初始得分方面的更差结果。(例如,特征图32×32中的FID 18.28对27.33)。这一比较表明,使用SAGAN带来的性能改善不仅仅是由于模型深度和容量的增加。

为了更好地理解生成过程中所学的内容,我们将不同图像的生成器的注意力权重可视化为SAGAN。图5和图1中显示了一些有注意力的示例图像。请参见图5的标题,了解学习注意力图的一些属性。

5.3. Comparison with the state-of-the-art

我们的SAGAN还与最先进的GAN模型(Odena等人,2017;Miyato&Koyama,2018)进行了比较,用于在ImageNet上生成类条件图像。如表2所示,我们提出的SAGAN实现了最佳初始分数、内部FID和FID。所提出的SAGAN将最佳发布初始得分从36.8显著提高到52.52。SAGAN实现的较低FID(18.65)和内部FID(83.7)也表明,通过使用自关注模块来建模图像区域之间的长程相关性,SAGAN可以更好地近似原始图像分布。
在这里插入图片描述
【图5.注意力图的可视化。这些图像是由SAGAN生成的。我们将使用注意力的最后一个生成器层的注意力图可视化,因为该层最接近输出像素,最容易投影到像素空间并进行解释。在每个单元格中,第一幅图像显示了三个带有彩色编码点的代表性查询位置。其他三幅图像是这些查询位置的注意力图,对应的彩色编码箭头概括了最受关注的区域。我们观察到,网络根据颜色和纹理的相似性来学习分配注意力,而不仅仅是空间邻接(见左上角单元格)。我们还发现,尽管一些查询点在空间位置上非常接近,但它们的注意力图可能非常不同,如左下角单元格所示。如右上角单元格所示,萨根能够画出腿明显分开的狗。蓝色的查询点表明,注意力有助于获得正确的关节区域结构。有关学习注意力图属性的更多讨论,请参阅正文。】

图6显示了ImageNet代表类的一些比较结果和GenerateImage。我们观察到,在合成具有复杂几何或结构模式的图像类(如金鱼和圣伯纳德)时,我们的SAGAN比最先进的GAN模型(Miyato&Koyama,2018)实现了更好的性能(即更低的内部FID)。对于结构约束较少的类别(例如,山谷、石墙和珊瑚菌,它们更多地通过纹理而不是几何结构区分),我们的萨根模型与基线模型相比显示出较少的优势(Miyato&Koyama,2018)。同样,原因是SAGAN中的自我关注是对卷积的补充,用于捕获几何或结构模式中一致出现的长距离全局级依赖,但在为简单纹理的依赖建模时,与局部卷积起着类似的作用。

6. Conclusion

在本文中,我们提出了自关注生成对抗网络(SAGAN),该网络将自关注机制纳入GAN框架。自关注模块在建模长期依赖性方面是有效的。此外,我们还表明,应用于生成器的谱归一化稳定了GAN训练,并且TTUR加快了正则化鉴别器的训练。SAGAN在ImageNet上实现了类条件图像生成的最新性能。

Acknowledgments

我们感谢Surya Bhupatiraju对本文草稿的反馈。我们还感谢David Berthelot和Tom B.Brown在实施细节方面提供的帮助。最后,我们感谢雅各布·乌兹科雷特、陶旭和阿什·V·阿斯瓦尼的有益讨论。

References

Arjovsky, M., Chintala, S., and Bottou, L. Wasserstein
GAN. arXiv:1701.07875, 2017.
Azadi, S., Olsson, C., Darrell, T., Goodfellow, I., and Odena,
A. Discriminator rejection sampling. arXiv preprint
arXiv:1810.06758, 2018.
Bahdanau, D., Cho, K., and Bengio, Y . Neural machine
translation by jointly learning to align and translate.
arXiv:1409.0473, 2014.
Brock, A., Donahue, J., and Simonyan, K. Large scale gan
training for high fidelity natural image synthesis. arXiv
preprint arXiv:1809.11096, 2018.
Che, T., Li, Y ., Jacob, A. P ., Bengio, Y ., and Li, W. Mode
regularized generative adversarial networks. In ICLR,
2017.
Chen, X., Mishra, N., Rohaninejad, M., and Abbeel, P .
Pixelsnail: An improved autoregressive generative model.
In ICML, 2018.
Cheng, J., Dong, L., and Lapata, M. Long short-term
memory-networks for machine reading. In EMNLP, 2016.
Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B.,
Warde-Farley, D., Ozair, S., Courville, A. C., and Bengio,
Y . Generative adversarial nets. In NIPS, 2014.
Gregor, K., Danihelka, I., Graves, A., Rezende, D. J., and
Wierstra, D. DRAW: A recurrent neural network for
image generation. In ICML, 2015.
Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V ., and
Courville, A. C. Improved training of wasserstein GANs.
In NIPS, 2017.
Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., and
Hochreiter, S. GANs trained by a two time-scale update
rule converge to a local nash equilibrium. In NIPS, pp.
6629–6640, 2017.
Hong, S., Y ang, D., Choi, J., and Lee, H. Inferring semantic
layout for hierarchical text-to-image synthesis. In CVPR,
2018.
Isola, P ., Zhu, J.-Y ., Zhou, T., and Efros, A. A. Image-to-
image translation with conditional adversarial networks.
In CVPR, 2017.
Jolicoeur-Martineau, A. The relativistic discriminator: a
key element missing from standard GAN. In ICLR, 2019.
Karras, T., Aila, T., Laine, S., and Lehtinen, J. Progressive
growing of GANs for improved quality, stability, and
variation. In ICLR, 2018.
Karras, T., Laine, S., and Aila, T. A style-based genera-
tor architecture for generative adversarial networks. In
CVPR, 2019.
Khrulkov, V . and Oseledets, I. Geometry score: A method
for comparing generative adversarial networks. arXiv
preprint arXiv:1802.02664, 2018.
Kingma, D. P . and Ba, J. Adam: A method for stochastic
optimization. In ICLR, 2015.
Ledig, C., Theis, L., Huszar, F., Caballero, J., Aitken, A.,
Tejani, A., Totz, J., Wang, Z., and Shi, W. Photo-realistic
single image super-resolution using a generative adver-
sarial network. In CVPR, 2017.
Lim, J. H. and Y e, J. C. Geometric GAN. arXiv:1705.02894,
2017.
Liu, M. and Tuzel, O. Coupled generative adversarial net-
works. In NIPS, 2016.
Metz, L., Poole, B., Pfau, D., and Sohl-Dickstein, J. Un-
rolled generative adversarial networks. In ICLR, 2017.
Miyato, T. and Koyama, M. cGANs with projection dis-
criminator. In ICLR, 2018.
Miyato, T., Kataoka, T., Koyama, M., and Y oshida, Y . Spec-
tral normalization for generative adversarial networks. In
ICLR, 2018.
Odena, A. Faster asynchronous sgd. arXiv preprint
arXiv:1601.04033, 2016.
Odena, A. Open questions about generative adversarial
networks. Distill, 2019. doi: 10.23915/distill.00018.
https://distill.pub/2019/gan-open-problems.
Self-Attention Generative Adversarial Networks
Odena, A., Olah, C., and Shlens, J. Conditional image
synthesis with auxiliary classifier GANs. In ICML, 2017.
Odena, A., Buckman, J., Olsson, C., Brown, T. B., Olah, C.,
Raffel, C., and Goodfellow, I. Is generator conditioning
causally related to GAN performance? In ICML, 2018.
Olsson, C., Bhupatiraju, S., Brown, T., Odena, A., and
Goodfellow, I. Skill rating for generative models. arXiv
preprint arXiv:1808.04888, 2018.
Parikh, A. P ., T¨ackstr¨om, O., Das, D., and Uszkoreit, J.
A decomposable attention model for natural language
inference. In EMNLP, 2016.
Park, T., Liu, M., Wang, T., and Zhu, J. Semantic image
synthesis with spatially-adaptive normalization. In CVPR,
2019.
Parmar, N., V aswani, A., Uszkoreit, J., ukasz Kaiser,
Shazeer, N., and Ku, A. Image transformer.
arXiv:1802.05751, 2018.
Radford, A., Metz, L., and Chintala, S. Unsupervised rep-
resentation learning with deep convolutional generative
adversarial networks. In ICLR, 2016.
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., and
Lee, H. Learning what and where to draw. In NIPS,
2016a.
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B.,
and Lee, H. Generative adversarial text-to-image synthe-
sis. In ICML, 2016b.
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S.,
Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein,
M., Berg, A. C., and Fei-Fei, L. ImageNet large scale
visual recognition challenge. IJCV, 2015.
Salimans, T., Goodfellow, I. J., Zaremba, W., Cheung, V .,
Radford, A., and Chen, X. Improved techniques for
training GANs. In NIPS, 2016.
Salimans, T., Zhang, H., Radford, A., and Metaxas, D. N.
Improving GANs using optimal transport. In ICLR, 2018.
Snderby, C. K., Caballero, J., Theis, L., Shi, W., and Huszar,
F. Amortised map inference for image super-resolution.
In ICLR, 2017.
Taigman, Y ., Polyak, A., and Wolf, L. Unsupervised cross-
domain image generation. In ICLR, 2017.
Tran, D., Ranganath, R., and Blei, D. M. Deep and hierar-
chical implicit models. arXiv:1702.08896, 2017.
V aswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones,
L., Gomez, A. N., Kaiser, L., and Polosukhin, I. Attention
is all you need. arXiv:1706.03762, 2017.
Wang, X., Girshick, R., Gupta, A., and He, K. Non-local
neural networks. In CVPR, 2018.
Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A. C., Salakhut-
dinov, R., Zemel, R. S., and Bengio, Y . Show, attend and
tell: Neural image caption generation with visual atten-
tion. In ICML, 2015.
Xu, T., Zhang, P ., Huang, Q., Zhang, H., Gan, Z., Huang,
X., and He, X. AttnGAN: Fine-grained text to image gen-
eration with attentional generative adversarial networks.
In CVPR, 2018.
Xue, Y ., Xu, T., Zhang, H., Long, L. R., and Huang, X.
SegAN: Adversarial network with multi-scale L1 loss
for medical image segmentation. Neuroinformatics, pp.
1–10, 2018.
Y ang, Z., He, X., Gao, J., Deng, L., and Smola, A. J. Stacked
attention networks for image question answering. In
CVPR, 2016.
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang,
X., and Metaxas, D. N. StackGAN++: Realistic image
synthesis with stacked generative adversarial networks.
TPAMI.
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X.,
and Metaxas, D. StackGAN: Text to photo-realistic image
synthesis with stacked generative adversarial networks.
In ICCV, 2017.
Zhao, J., Mathieu, M., and LeCun, Y . Energy-based genera-
tive adversarial network. In ICLR, 2017.
Zhou, S., Gordon, M., Krishna, R., Narcomey, A., Mo-
rina, D., and Bernstein, M. S. HYPE: human eye
perceptual evaluation of generative models. CoRR,
abs/1904.01121, 2019. URL http://arxiv.org/
abs/1904.01121.
Zhu, J.-Y ., Park, T., Isola, P ., and Efros, A. A. Unpaired
image-to-image translation using cycle-consistent adver-
sarial networks. In ICCV, 2017.

### 回答1: SAGAN(Self-Attention GAN)是PyTorch中的一种生成对抗网络架构,用于生成逼真的图像。它主要利用了自注意力机制来提高生成器和判别器之间的信息交互。下面将对SAGAN做一个简要的介绍。 在传统的GAN中,生成器和判别器之间的信息传递是通过共享梯度来实现的。然而,这种方式很难让生成器和判别器得到足够的全局信息,因此可能导致生成图像的一些问题,如模糊或不清晰。 SAGAN通过引入自注意力机制来解决这个问题。自注意力机制允许网络在不同位置之间获取全局信息,从而更好地理解不同区域之间的关系。具体来说,自注意力机制在计算特征图中每个位置的像素时,将其与其他位置的所有像素进行比较并计算一个权重,用于指示该位置如何与其他位置进行关联。这样,生成器和判别器就可以更好地利用全局信息。 在SAGAN中,生成器和判别器都采用了自注意力机制。生成器使用自注意力机制来生成更具吸引力和详细的图像。判别器使用自注意力机制来从全局角度评估图像的真实性。通过使生成器和判别器都具备自注意力机制,SAGAN能够更好地捕捉图像中的全局结构和细节特征。 总结来说,SAGAN是PyTorch中的一种生成对抗网络架构,通过引入自注意力机制来提高生成器和判别器之间的信息交互。它能够更好地理解图像中的全局结构和细节特征,从而生成更逼真的图像。 ### 回答2: SAGAN是指Self-Attention Generative Adversarial Networks,是基于PyTorch开发的一种深度生成对抗网络模型。 SAGAN模型引入了自注意力机制,旨在增强生成模型对全局和局部特征的理解能力。通过自注意力机制,模型能够在生成过程中动态地对输入数据的不同位置进行加权处理,更加准确地捕捉图像中的重要信息。这种机制有助于生成模型解决传统GAN模型在生成高分辨率图像中遇到的困难。 SAGAN使用了一个判别器网络和一个生成器网络。生成器网络接受一个随机噪声向量作为输入,并通过一系列的转置卷积层将其逐渐转化为生成的图像。而判别器网络则通过卷积层和自注意力层来对真实图像和生成的图像进行区分。 在SAGAN中,自注意力层使用一个矩阵乘法运算来计算输入信号之间的相关性,得到特定位置的特征权重。通过将这些权重与输入特征相乘并相加,自注意力层能够将更多的注意力放在重要的图像区域上,从而增强模型的生成效果。 SAGAN的另一个关键特点是采用了谱归一化技术,它能够有效地稳定训练过程。这项技术通过对权重矩阵进行限制,保证了生成器和判别器之间的特征表示的稳定性,从而提高了模型的生成质量。 总的来说,SAGAN是一种基于PyTorch框架开发的深度生成对抗网络模型,通过引入自注意力机制和谱归一化技术,增强了生成模型的学习能力和生成效果。该模型在图像生成任务中具有较好的性能,并有望在图像合成、图像转换等领域发挥重要作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啊菜来了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值