Feature Statistics Mixing Regularization for Generative Adversarial Networks

Abstract

在生成对抗网络中,改进鉴别器是提高生成性能的关键因素之一。由于图像分类器偏向于纹理,而消隐提高了准确性,我们研究了1)鉴别器是否有偏差,以及2)如果消隐鉴别器将提高生成性能。事实上,我们发现经验证据表明,鉴别器对图像的风格(例如纹理和颜色)很敏感。作为补救措施,我们提出了特征统计混合正则化(FSMR),鼓励鉴别器的预测对输入图像的样式保持不变。具体而言,我们在鉴别器的特征空间中生成原始图像和参考图像的混合特征,并应用正则化,以便混合特征的预测与原始图像的预测一致。我们进行了大量实验,以证明我们的正则化降低了对样式的敏感性,并持续改进了九个数据集上各种GAN架构的性能。此外,将FSMR添加到最近提出的基于增强的GAN方法中,进一步提高了图像质量。我们的代码位于 https://github.com/naver-ai/FSMR.

1. Introduction

生成性对抗网络(GANs)[8]在过去几年中取得了重大发展,实现了许多计算机视觉和图形应用[4、5、14、22、23、25、31、44]。在精心设计的体系结构之上[3、18、20、21、30、32、40],特定于GanS的数据增强和正则化技术是改进的关键。正则化技术[9,15–17,28,29,41,43]通过惩罚输入局部区域内鉴别器输出的急剧变化来稳定训练动态。另一方面,数据增强技术[19,42]防止了鉴别器过度拟合,正如《分类法》中通常采用的那样†通讯作者。干线。请注意,这两项工作都旨在指导鉴别器不要专注于观察的特定子集,而是概括整个数据分布。

纹理已经被证明为分类器提供了强有力的提示[6,7,10]。如果这样的提示足以达到高精度,那么模型往往无法了解预期任务的复杂性[2]。由于GAN鉴别器本质上是分类器,我们假设它们也倾向于依赖纹理来分类真假图像。因此,生成器将专注于合成被偏置鉴别器视为真实的纹理。在本文中,我们回答了两个问题:1)鉴别器是否对风格(例如纹理和颜色)敏感?2)如果是,对鉴别器进行借记是否会提高生成性能?

为了回答第一个问题,我们定义了样式距离,如图1a所示。理想的鉴别器会产生较小的样式距离,因为两幅图像具有相同的内容。由于没有度量单位,我们计算相对距离:样式距离除以内容距离。换句话说,我们用不同内容的图像之间距离的倍数来衡量对风格的敏感性。令人惊讶的是,图1b显示所有基线在相对距离上都有明显的值。

为了回答第二个问题,我们使用debias作为鉴别器并衡量生成性能的改善。借记的一种简单方法是抑制鉴别器输出中与输入图像样式变化相关的差异。事实上,我们观察到,在原始图像与其样式化版本之间的鉴别器上施加一致性损失[41,43]可以改进生成器,因为模仿内容比模仿样式更容易欺骗鉴别器。

然而,这种方法导致了其他困难:选择样式图像的标准不明确,并且使用各种样式引用对所有训练图像进行样式化需要巨大的计算负担和外部样式数据集。为了有效解决风格偏差问题,我们提出了特征统计混合正则化(FSMR),通过在discrim1 arXiv:2112.04120v2[cs.CV]2022年3月25日的inator中混合特征统计,鼓励鉴别器的预测对输入图像的风格保持不变。具体来说,我们通过在鉴别器的中间层中组合原始和参考特征来生成混合特征,并在原始和混合特征的预测之间施加一致性。

在实验中,我们表明FSMR确实诱导鉴别器降低了对风格的敏感性(第4.1节)。然后,我们进行了彻底的比较,以证明FSMR持续改进了基准数据集上的各种GAN方法(第4.2节)。我们的方法可以很容易地应用于任何环境,无需繁琐的准备工作。我们的实现和模型将在研究社区的网上公开。我们的贡献总结如下:

  • 据我们所知,我们的工作是第一次对性别歧视者进行风格偏差分析我们定义了相对距离度量来衡量对样式的敏感性(第2节)
  • 我们提出了特征统计混合正则化(FSMR),这使得鉴别器的预测对样式具有鲁棒性(第3节)
  • FSMR不使用外部样式图像,优于使用外部样式图像的简单解决方案(第4.1节)。
  • FSMR改进了关于FID和相对距离的所有标准和小型数据集的五条基线(第4.2、4.3节)。

2. Style-bias in GANs

我们的工作是基于最近的发现,即CNN对风格而非内容敏感,即当风格线索和内容线索发生冲突时,ImageNettrained CNN可能会做出风格偏向的决定[7]。为了定量测量鉴别器对样式的敏感程度,我们计算样式距离、内容距离,然后计算相对距离。之后,我们描述了一个简单的基线解决方案,以减少鉴别器与样式的距离。

我们为鉴别器对风格的敏感程度定义了一个定量度量。首先,给定一组训练图像,我们使用样式转换方法合成相同内容的不同样式化图像。这些样式是从WikiArt中随机选择的【1】。图1a显示了AFHQ的一些样式化图像示例【5】。我们定义了具有不同样式和相同内容的图像之间的样式距离ds。内容距离dc的定义与此相反:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

图1.(a) 样式转换方法T(c,s)将s的样式转换为c的内容。我们将样式距离定义为由于样式变化而产生的输出差异。内容距离是定义的,反之亦然。(b) 各种GAN方法的相对距离。相对距离表示鉴别器对样式变化的敏感程度(等式3)。详见第2节。

在这里插入图片描述
其中T(c,s)传输参考图像s的样式∈ RC×H×W到内容图像c∈ RC×H×W和d测量鉴别器最后一个特征向量中的余弦距离。在实践中,我们使用自适应实例规范化(AdaIN)[13]作为T。图1说明了公式(1)和(2)中计算内容和样式距离的过程。
在这里插入图片描述
由于没有测量单位,我们计算相对距离ρ,即样式距离除以内容距离:
在这里插入图片描述
其中C和S分别表示训练数据集和外部样式数据集。ρ值越大,在对真假图像进行分类时,鉴别器对样式越敏感。从这里开始,我们将使用相对距离ρ进行进一步分析。我们的目标是减少样式距离,以便鉴别器认为内容更重要,并为生成器生成更丰富的梯度。

ImageNet预训练的ResNet50和用于分类样式化ImageNet ResNet50的相对距离[7]支持度量的有效性。由于后者的相对距离小于前者,且后者被证明不太偏向于风格,我们认为相对距离较低的鉴别器对风格的敏感度较低(数字推迟到第4.2节)。

2.2. Baseline: On-the-fly stylization

防止分类器偏向于样式的一种众所周知的技术是使用样式转换版本来增强图像,尤其是使用WikiArt数据集[1]作为样式引用[7]。它之所以有效,是因为风格转换不会改变原始图像的语义或网络的预期输出。另一方面,在GAN训练中,样式转换将图像从原始数据分布中移出,从而改变鉴别器的预期输出【19】。对于这种陷阱,有两种解决方法:1)对真实和虚假数据应用随机增强[19,42],2)惩罚由增强引起的输出差异,而不是将增强的图像提供给鉴别器[41,43]。由于我们的目标是使鉴别器对样式变化不那么敏感,因此我们将第二种方法作为简单的基线,例如,通过以下方式对原始图像c及其随机样式化图像T(c,s)之间的鉴别器施加一致性.
在这里插入图片描述
其中D(.)表示来自鉴别器的logit。然而,这也带来了其他问题和困难:选择样式图像的标准尚不明确,并且动态设置每个图像的样式需要额外的成本和外部数据集。另一种选择是准备一个样式化的数据集,而不是动态样式化,但它还需要非常大的存储空间。为了解决这一问题,我们提出了一种有效且普遍有效的方法,即特征混合统计正则化,其详细信息将在接下来的3节中描述。

3. Proposed method

我们首先对传统的风格转换算法AdaIN进行了初步描述。然后,我们讨论了我们提出的特征统计混合正则化(FSMR)方法如何结合AdaIN来降低鉴别器对样式的敏感性。

3.1. Preliminary: AdaIN

实例规范化(IN)[35]通过规范化特征统计信息来执行一种形式的样式删除。Adaptive instance normalization(AdaIN)[13]扩展到从内容图像中删除现有样式并传输给定样式。具体而言,AdaIN将内容特征贴图x转换为特征贴图,其通道方向的均值和方差与样式特征贴图y的均值和方差相同:
在这里插入图片描述
其中x,y∈ RC×H×W是通过预训练编码器获得的特征,µ(·)和σ(·)表示它们的平均值和标准偏差,它们分别是为每个通道计算的空间尺寸。然后,通过一个经过适当训练的解码器,变换后的特征成为一幅风格化的图像1。为了提高发电性能,在发电机内采用AdaIN进行了大量工作【5、14、20、22、23、25】。相反,我们提出的方法(FSMR)在鉴别器中使用它来实现高效正则化,如下所述。

3.2. Feature statistics mixing regularization

我们的目标是使鉴别器不严重依赖输入图像的样式,而不会遇到即时样式化的困难(第2.2节)。因此,我们提出了特征统计混合正则化(FSMR),它不需要任何外部数据集,并且可以根据鉴别器中的层操作有效地实现。FSMR使用另一个训练样本在鉴别器中混合中间特征映射的平均值和标准偏差,并惩罚原始输出和混合输出之间的差异。
具体而言,我们将特征映射x相对于特征映射y的特征统计混合(FSM)定义为AdaIN,然后进行线性插值:
在这里插入图片描述
在这里插入图片描述
其中α∼ 均匀(0,1)控制特征扰动的强度。我们假设,改变α可以让鉴别器从各种正则化强度中学习。
将鉴别器的第i层表示为fi,将内容图像表示为c,将样式参考图像表示为s(从当前小批量样本中随机选择),我们通过FSM的前馈操作定义混合特征映射x和y:
在这里插入图片描述
然后,混合前馈通过具有n个卷积层的鉴别器的最终输出logit变为:
在这里插入图片描述
给定原始输出D(c)和混合输出DFSM(c,s),我们将以损失来惩罚其差异:
在这里插入图片描述
图2展示了FSMR的完整图。在更新鉴别器参数时,该损失被添加到对抗性损失中[8]。它对鉴别器进行正则化,以在不同层次的特征的不同统计下产生一致的输出。我们的LFSMR设计是通用的,因此可以与其他方法相结合【19、20、42】。如算法1所示,FSM只需几行代码即可实现。此外,我们在附录C中提供了FSMR的类Tensorflow伪代码。

3.3. Visualizing the effect of FSM

为了直观地检查FSM在鉴别器中的效果,我们训练了一个解码器(与AdaIN[13]的结构相同),该解码器从原始鉴别器的32×32特征映射重建原始图像。
在图3中,内容图像通过与样式图像相关的所有层上具有FSM的鉴别器,以生成样式化(即FSMed)中间特征。然后,学习解码器根据FSMed特征合成结果图像。
FSMed图像具有与样式图像相似的全局样式,但包含内容图像的语义。它的效果与AdaIN相似,但能更好地保留内容的细节。我们认为,鉴别器的关键是能够为生成器提供更真实的图像梯度,从而获得比即时样式化基线更高质量的图像(第4.1节)。

4. Experiments

我们使用五种GAN方法,如DCGAN【32】、bCRGAN【43】、StyleGAN2【21】、DiffAugment【42】和ADA【19】,对CIFAR-10【26】、FFHQ【20】、AFHQ【5】、CelebA HQ【18】、LSUN Church【37】和MetFaces【19】的六个数据集进行了广泛的实验。我们根据最近的实验设置选择数据集和基线方法【19,42】。我们使用相对距离ρ(公式3)、弗雷切特起始距离(FID)[11]和起始分数(IS)[33]作为评估指标。当我们计算FID时,我们使用所有的训练样本和相同数量的假样本。所有基线方法都是使用作者提供的官方实现进行培训的。详见附录A。接下来,我们将进行彻底的实验,以证明我们的方法优于简单的解决方案和基线。
在这里插入图片描述

4.1. Comparison with the on-the-fly stylization

在本节中,我们将我们的方法与on-Offly样式化进行比较,即在训练期间通过AdaIN生成样式化图像并应用一致性正则化(第2.2节)。为了实现这一点,我们从WikiArt[1]中收集了100幅样式图像,并随机抽取一幅,在培训期间对每幅图像进行样式化。请注意,与on-thefly样式化不同,FSMR不依赖外部样式图像。我们在五个基准数据集上进行了实验:CIFAR-10、CelebA HQ、FFHQ、AFHQ和LSUN Church。

表1比较了FID中正则化、动态样式化和FSMR的效果。与基线相比,前者在一定程度上改善了FID,但在所有情况下,FSMR带来的改善都更大。有关与其他网络和数据集的比较,请参见附录F。

为了测量鉴别器对样式的敏感性,我们计算每种方法的相对距离ρ(公式3)。图4显示了CIFAR-10、FFHQ和AFHQ上的相对距离。正如人们很容易预料的那样,利用样式化的数据集会降低鉴别器对样式的敏感性。值得注意的是,FSMR不仅持续降低敏感性,而且在所有情况下都优于竞争对手。这是一个非常有意义的结果,因为FSMR不使用任何外部样式化的数据集,但在训练期间只使用原始图像。我们还观察到,在相同的环境中,较低的相对距离与较低的FID一致。

我们比较了表1中的时间和内存成本。FSMR要求3.0∼7.4%的额外训练时间,但飞行训练法需要17.2∼26.8%的额外训练时间用于图像样式化中的额外前馈传递。此外,动态方法需要70.0∼87.5%的额外GPU内存用于存储预训练的网络和图像样式化功能,但FSMR只增加了微不足道的内存(∼2%)GPU内存。为了避免在培训期间进行动态样式化的额外成本,我们可以在培训之前准备样式化数据集(即,不同的方法,但与动态样式化具有相同的效果)。然而,如表2所示,提前进行一对多样式化需要大量计算和令人望而却步的大量存储。例如,要为具有100个样式引用的1024×1024 FFHQ构建样式化数据集,我们需要处理和存储7.0M(70k×100)以上的图像(8.93TB)。

作为一项消融研究,我们推进了更严格的正则化:使用随机移动的特征映射代替FSM。我们观察到,在AdaIN(方程式5)中使用任意平均值和标准偏差显著阻碍了对抗生成器和鉴别器之间的训练,即训练发散。另一方面,使用印度支那样本的FSMR显示了预期的效果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2. Standard datasets

我们在三个基准数据集上评估了FSMR的有效性,所有这些数据集都有10k以上的训练图像:CIFAR-10(50k)、FFHQ(70k)和AFHQ(16k)。表3(左)显示,即使使用现有的增强技术,FSMR也能持续改进StyleGAN2【19,42】。我们强调,FSMR通过AFHQ上的一个大间隙来增强基线,在这种情况下,鉴别器可能很容易偏向于动物的颜色和纹理。

图5显示了StyleGAN2变体在CIFAR-10、FFHQ和AFHQ上的相对距离。FSMR在所有情况下都减少了相对距离,他们同意FID的改进。我们还提供了在ImageNet和样式化ImageNet上预训练的ResNet50网络的相对距离,作为每个数据集中的参考(第2.1节)。由于相对距离越小,分类性能越高,鉴别器的相对距离越小,生成性能越高。

此外,表4表明,在StyleGAN2变体上应用FSMR进一步改进了FID,并适用于CIFAR-10上的无条件和类条件生成。定性结果见图6和附录F。

4.3. Small datasets.

众所周知,由于数据流形的覆盖范围有限,GAN很难在小型数据集上进行训练。能够在小数据集上训练GAN将导致各种应用领域,为用户提供丰富的合成体验。我们用五个小数据集尝试了我们的方法,这些数据集由有限数量的训练图像组成,如MetFaces(1k)、AFHQ Dog(5k)、AFHQ Cat(5k)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
AFHQ野生型(5k)。如表3(右)所示,我们可以观察到,即使数据量很小,FSMR也能稳定地改善所有基线模型的FID。定性结果见图6和附录F

5. Related Work

改进鉴别器。虽然生成性对抗网络[8]在其网络架构方面不断发展[20、21、28、32],但将鉴别器规范化同时被视为稳定其对抗训练的重要技术。示例包括实例噪声【15】、梯度惩罚【9,28】、谱归一化【29】、对比学习【16,17】和一致性正则化【41,43】。它们隐式或显式地强制在输入的某些扰动范围内对输出进行平滑更改。最近的方法使用数据增强技术来防止鉴别器过度拟合[19,42]。虽然它们显式地增加了图像,但我们的方法隐式地增加了鉴别器中的特征映射。此外,当他们使用训练分类器中使用的标准变换时,我们的方法使鉴别器规则化,以便在输入图像的样式发生变化时产生小的变化,并有效防止鉴别器偏向样式。

偏向风格。卷积神经网络在训练分类器[6、7、10]时偏向于风格(纹理)。减少偏差的简单解决方案是通过样式转移算法将样本的纹理随机化【7】。它是一种数据增强技术,因为样式转换可以防止分类器过度拟合样式,因为几何变换或颜色变换可以防止分类器过度拟合某些位置或颜色。由于简单地干扰GAN训练中的数据分布会导致受干扰的伪分布[19],我们引入了一个具有隐式风格化特征的额外前向传递,并在输出中施加与原始前向传递的一致性(等式10)。虽然我们混合的线性插值类似于混音[39],但我们不插值目标输出,只软化特征统计中的变化。

样式混合正则化(Style mixing Regulation)[20]可能与FSMR相似,因为它还混合了两种样式。它在生成器中混合样式,并鼓励生成器生成混合图像,用于生成器和鉴别器的对抗性训练。其目标是划分各层的作用,对性能几乎没有影响(4.42→4.40,FFHQ,StyleGAN,1024x1024分辨率)。另一方面,FSMR隐式地在鉴别器中混合样式,并通过对鉴别器施加一致性正则化来抑制对样式的敏感性。FSMR对性能改进有很大影响(5.52→3.72,FFHQ,StyleGAN2,256x256分辨率)。

6. Limitation and Discussion

如各种实验所示,我们发现鉴别器对样式有偏差,这使得可以通过相对距离度量进行数值表示。然而,我们还没有找到每个模型应该减少多少相对距离的最佳值。我们通过图5中的参考值观察到,尽管我们无法找到最佳值,但相对距离减小时的关系,对样式的偏差减小。我们提出了FSMR,它减少了只使用内部训练数据集而不使用外部数据集的风格偏差,并证明了FSMR非常简单而有效。在今后的工作中,有必要寻找相对距离的最佳值,并统一不同模型之间的相对距离。

7. Conclusion

我们观察到鉴别器偏向于风格。为了定量测量偏差量,我们提出了相对距离,即风格距离除以内容距离。虽然使用简单的一致性正则化和样式转换方法减少样式偏差会导致歧义和困难,但我们的特征统计混合正则化(FSMR)提供了一种简单有效的解决方案。重要的是,FSMR不会明确地将图像样式化,但会干扰鉴别器中的中间特征8。我们将FSMR的效果可视化,并定量分析其相对灵敏度行为。实验表明,即使结合最新的技术,我们的方法也能持续改进各种网络架构。

致谢作者感谢NA VER AI实验室研究人员和朱俊安(Jun-Y an Zhu)的建设性讨论。所有实验均在NA-VER智能机器学习(NSML)平台上进行【24,34】。这项工作得到了IITP拨款(编号:2021-0-00155)和NRF拨款(NRF-2021R1G1A1095637)的部分支持。这两项赠款均由韩国政府(MSIT)资助。

References

[1] Wikiart. https://www.kaggle.com/c/painter-
by-numbers. 2, 3, 5
[2] Hyojin Bahng, Sanghyuk Chun, Sangdoo Y un, Jaegul Choo,
and Seong Joon Oh. Learning de-biased representations with
biased representations. In ICML, 2020. 1
[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large
scale gan training for high fidelity natural image synthesis.
In ICLR, 2019. 1
[4] Y unjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,
Sunghun Kim, and Jaegul Choo. Stargan: Unified genera-
tive adversarial networks for multi-domain image-to-image
translation. In CVPR, 2018. 1
[5] Y unjey Choi, Y oungjung Uh, Jaejun Y oo, and Jung-Woo Ha.
Stargan v2: Diverse image synthesis for multiple domains.
In CVPR, 2020. 1, 2, 4, 5
[6] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.
Texture synthesis using convolutional neural networks. In
NeurIPS, 2015. 1, 8
[7] Robert Geirhos, Patricia Rubisch, Claudio Michaelis,
Matthias Bethge, Felix A Wichmann, and Wieland Brendel.
Imagenet-trained cnns are biased towards texture; increasing
shape bias improves accuracy and robustness. In ICLR, 2019.
1, 2, 3, 7, 8
[8] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing
Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville,
and Y oshua Bengio. Generative adversarial networks. In
NeurIPS, 2014. 1, 4, 7
[9] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent
Dumoulin, and Aaron Courville. Improved training of
wasserstein gans. In NeurIPS, 2017. 1, 7
[10] Katherine L Hermann, Ting Chen, and Simon Kornblith. The
origins and prevalence of texture bias in convolutional neural
networks. In NeurIPS, 2020. 1, 8
[11] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,
Bernhard Nessler, and Sepp Hochreiter. Gans trained by a
two time-scale update rule converge to a local nash equilib-
rium. In NeurIPS, 2017. 5, 11
[12] Minui Hong, Jinwoo Choi, and Gunhee Kim. Stylemix: Sep-
arating content and style for enhanced data augmentation. In
CVPR, 2021. 12
[13] Xun Huang and Serge Belongie. Arbitrary style transfer in
real-time with adaptive instance normalization. In ICCV,
2017. 2, 4, 5, 12
[14] Xun Huang, Ming-Y u Liu, Serge Belongie, and Jan Kautz.
Multimodal unsupervised image-to-image translation. In
ECCV, 2018. 1, 4
[15] Simon Jenni and Paolo Favaro. On stabilizing generative
adversarial training with noise. In CVPR, 2019. 1, 7
[16] Jongheon Jeong and Jinwoo Shin. Training gans with
stronger augmentations via contrastive discriminator. In
ICLR, 2021. 1, 7
[17] Minguk Kang and Jaesik Park. Contragan: Contrastive learn-
ing for conditional image generation. In NeurIPS, 2020. 1,
7
9
[18] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.
Progressive growing of gans for improved quality, stability,
and variation. In ICLR, 2018. 1, 5
[19] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine,
Jaakko Lehtinen, and Timo Aila. Training generative ad-
versarial networks with limited data. In NeurIPS, 2020. 1, 3,
4, 5, 6, 7, 8
[20] Tero Karras, Samuli Laine, and Timo Aila. A style-based
generator architecture for generative adversarial networks. In
CVPR, 2019. 1, 4, 5, 7, 8
[21] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,
Jaakko Lehtinen, and Timo Aila. Analyzing and improving
the image quality of stylegan. In CVPR, 2020. 1, 5, 7
[22] Hyunsu Kim, Y unjey Choi, Junho Kim, Sungjoo Y oo, and
Y oungjung Uh. Exploiting spatial dimensions of latent in
gan for real-time image editing. In CVPR, 2021. 1, 4
[23] Hyunsu Kim, Ho Y oung Jhoo, Eunhyeok Park, and Sungjoo
Y oo. Tag2pix: Line art colorization using text tag with secat
and changing loss. In ICCV, 2019. 1, 4
[24] Hanjoo Kim, Minkyu Kim, Dongjoo Seo, Jinwoong Kim,
Heungseok Park, Soeun Park, Hyunwoo Jo, KyungHyun
Kim, Y oungil Yang, Y oungkwan Kim, et al. Nsml: Meet the
mlaas platform with a real-world case study. arXiv preprint
arXiv:1810.09957, 2018. 9
[25] Junho Kim, Minjae Kim, Hyeonwoo Kang, and Kwang Hee
Lee. U-gat-it: Unsupervised generative attentional net-
works with adaptive layer-instance normalization for image-
to-image translation. In ICLR, 2020. 1, 4
[26] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple
layers of features from tiny images. 2009. 5
[27] Boyi Li, Felix Wu, Ser-Nam Lim, Serge Belongie, and Kil-
ian Q Weinberger. On feature normalization and data aug-
mentation. In CVPR, 2021. 12
[28] Lars Mescheder, Andreas Geiger, and Sebastian Nowozin.
Which training methods for gans do actually converge? In
ICML, 2018. 1, 7
[29] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and
Y uichi Y oshida. Spectral normalization for generative ad-
versarial networks. In ICLR, 2018. 1, 7
[30] Takeru Miyato and Masanori Koyama. cgans with projection
discriminator. In ICLR, 2018. 1
[31] Taesung Park, Ming-Y u Liu, Ting-Chun Wang, and Jun-Yan
Zhu. Semantic image synthesis with spatially-adaptive nor-
malization. In CVPR, 2019. 1
[32] Alec Radford, Luke Metz, and Soumith Chintala. Unsuper-
vised representation learning with deep convolutional gener-
ative adversarial networks. In ICLR, 2016. 1, 5, 7
[33] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki
Cheung, Alec Radford, and Xi Chen. Improved techniques
for training gans. In NeurIPS, 2016. 5, 11
[34] Nako Sung, Minkyu Kim, Hyunwoo Jo, Y oungil Yang, Jing-
woong Kim, Leonard Lausen, Y oungkwan Kim, Gayoung
Lee, Donghyun Kwak, Jung-Woo Ha, et al. Nsml: A ma-
chine learning platform that enables you to focus on your
models. arXiv preprint arXiv:1712.05902, 2017. 9
[35] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. In-
stance normalization: The missing ingredient for fast styliza-
tion. arXiv preprint arXiv:1607.08022, 2016. 4
[36] Vikas V erma, Alex Lamb, Christopher Beckham, Amir Na-
jafi, Ioannis Mitliagkas, David Lopez-Paz, and Yoshua Ben-
gio. Manifold mixup: Better representations by interpolating
hidden states. In ICML, 2019. 11
[37] Fisher Y u, Yinda Zhang, Shuran Song, Ari Seff, and Jianx-
iong Xiao. Lsun: Construction of a large-scale image dataset
using deep learning with humans in the loop. arXiv preprint
arXiv:1506.03365, 2015. 5
[38] Sangdoo Y un, Dongyoon Han, Seong Joon Oh, Sanghyuk
Chun, Junsuk Choe, and Y oungjoon Y oo. Cutmix: Regu-
larization strategy to train strong classifiers with localizable
features. In ICCV, 2019. 11
[39] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and
David Lopez-Paz. mixup: Beyond empirical risk minimiza-
tion. In ICLR, 2018. 8, 11
[40] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augus-
tus Odena. Self-attention generative adversarial networks. In
ICML, 2019. 1
[41] Han Zhang, Zizhao Zhang, Augustus Odena, and Honglak
Lee. Consistency regularization for generative adversarial
networks. In ICLR, 2020. 1, 3, 7
[42] Shengyu Zhao, Zhijian Liu, Ji Lin, Jun-Yan Zhu, and Song
Han. Differentiable augmentation for data-efficient gan
training. In NeurIPS, 2020. 1, 3, 4, 5, 6, 7
[43] Zhengli Zhao, Sameer Singh, Honglak Lee, Zizhao Zhang,
Augustus Odena, and Han Zhang. Improved consistency reg-
ularization for gans. In AAAI, 2021. 1, 3, 5, 7
[44] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A
Efros. Unpaired image-to-image translation using cycle-
consistent adversarial networks. In ICCV, 2016. 1

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
"Feature Statistics Mixing Regularization for Generative Adversarial Networks"这篇论文提出了一种新的生成对抗网络(GAN)的正则化方法,以提高GAN的训练稳定性和生成结果的质量。其模型由以下几个部分组成: 1. 生成器(Generator):利用输入的随机噪声生成图像。 2. 判别器(Discriminator):对生成器生成的图像与真实图像进行分类,以判断图像的真伪。 3. 特征统计量混合正则化(Feature Statistics Mixing Regularization):在生成器和判别器之间引入一种正则化方法,以提高生成器的效果和判别器的鲁棒性。该正则化方法主要涉及到特征统计量(feature statistics)的混合,通过将生成器和判别器中的特征统计量相互混合,来减小它们之间的差异,从而增强网络的鲁棒性和稳定性。 4. 损失函数(Loss Function):利用生成器和判别器的输出计算损失函数,以衡量生成器的效果和判别器的鲁棒性。其中,生成器的损失函数包括生成器输出的图像与真实图像之间的差异(通过像素级别的L1或L2距离来度量),以及生成器输出的图像被判别器判定为真实图像的程度。判别器的损失函数包括判别器输出的图像被正确分类的程度,以及判别器对生成器输出的图像的分类结果。 综上所述,"Feature Statistics Mixing Regularization for Generative Adversarial Networks"的模型包括生成器、判别器、特征统计量混合正则化和损失函数等部分,以提高GAN的训练稳定性和生成结果的质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啊菜来了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值