Freeze the Discriminator a Simple Baseline for Fine-Tuning GANs

Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs

生成式对抗网络(GANs)在计算机视觉、图形学和机器学习等领域表现出了出色的性能,但通常需要大量的训练数据和大量的计算资源。为了解决这一问题,几种方法将迁移学习技术引入GAN训练中。然而,他们要么倾向于过度拟合,要么局限于学习小的分布变化。在本文中,我们证明了简单的微调gan具有冻结的低层鉴别器表现惊人的好。这个简单的基线,即FreezeD,显著优于以前在无条件和条件gan中使用的技术。

The code and results are available at https://github.com/sangwoomo/FreezeD.

1. Introduction

已经提出了许多技术来克服这一限制,例如,转移训练有素的源模型的知识[45, 32, 44],学习元知识以快速适应目标领域[24, 47, 42],使用辅助任务来促进训练[7, 26, 48, 49],改进次优模型的推理程序[2, 39, 29, 38],使用表达式先验分布[13],主动选择样本来为条件生成提供监督[29],或主动抽样小批进行训练[37]。在这些方法中,转移学习[46]可以说是在有限的数据和资源下训练模型的最有希望的方法。事实上,最近深度学习的大部分成功都是建立在以监督[9]或自我监督[10, 14]的方式在大型数据集上预训练的强大骨干上。

在识别任务中转移分类器成功之后,还可以考虑将训练良好的GAN主干用于下游生成任务。虽然有几种方法提出了迁移学习方法来训练GANs[45,32,44],但它们往往倾向于在有限的训练数据[45]下进行过拟合,或者在学习显著分布偏移时不具有鲁棒性[32,44]。

在本文中,我们提出了一个简单而有效的gan迁移学习基线。特别地,我们展示了简单的gan微调(生成器和判别器)与判别器的冻结较低层的性能惊人地好(参见图1)。直观上,鉴别器的下层学习图像的一般特征,上层学习根据提取的特征对图像进行真伪分类。我们注意到,这种特征提取器和分类器的二分法(并冻结特征提取器以进行微调)并不新鲜;它已被广泛应用于训练分类器[46]。我们确认了这一观点对gan的迁移学习也是有用的,并为gan迁移学习设置了合适的基线。

在这里插入图片描述

图1:在动物脸部[36]数据集中的 "狗 "类上,微调[15]和我们提出的基线FreezeD的得分趋势。虽然微调存在过拟合的问题,但FreezeD在训练GAN时显示出持续的稳定性。

我们使用不同的架构和数据集证明了简单基线(被称为FreezeD)的有效性。 对于无条件的GANs,我们对StyleGAN[20]架构进行了微调,该架构在FFHQ[20]、动物脸部[36]和动漫脸部[30]数据集上进行了预训练;对于有条件的GANs,我们对SNGAN-projection[27]架构进行了微调,该架构在ImageNet[9]、牛津花[31]、CUB-200-2011[40]和Caltech-256[12]数据集上预训练。FreezeD在所有的实验设置中都优于以前的技术,例如,在动物脸部数据集的 "狗 "类上,FID[15]得分从微调的64.28分提高到61.46分(-4.4%)

2. Methods

GANs[11]的目标是学习一个生成器(和一个相应的鉴别器)来匹配目标数据分布。在迁移学习中,我们假设可以利用预先训练的源数据分布源生成器(和相应的鉴别器)来改进目标生成器。GANs的调查见[25,22]。

首先,我们简要回顾了以往的迁移学习方法。

  • 微调[45]:最直观、最有效的知识传递方式就是微调;将目标模型的参数初始化为源模型的预训练权值。作者报告说,微调生成器和鉴别器确实显示出最好的性能然而,微调经常遭受过度拟合的困扰;因此需要适当的regularization

  • Scale/shift[32]:由于na¨ıve微调容易过度拟合,Scale/shift建议只更新归一化层(例如,批处理归一化(BN)[17]),而固定所有其他权重。然而,由于其局限性,它往往表现出较差的结果,特别是当源和目标分布之间有显著的变化时

  • Generative latent optimization(GLO)[32,4]。由于GAN的损失是由判别器给出的,这对于有限的数据来说可能是不可靠的,GLO建议用监督学习来微调生成器,其中损失由L1损失和感知(perceptual )损失之和给出[19]。在这里,GLO联合优化生成器和 latent codes以避免过度拟合;一个 latent codes(及其相应的生成样本)与一个真实样本相匹配;因此,生成器可以通过插值来概括样本。虽然GLO提高了稳定性,但由于缺乏对抗性损失(以及对源鉴别器的预先了解),它往往会产生模糊的图像

  • MineGAN[44]。为了避免生成器的过度拟合,MineGAN建议固定生成器并修改latent codes。为此,MineGAN训练一个矿工网络,将latent codes转换为另一个latent codes。虽然当源分布和目标分布共享支持时,这种类似重要性采样的方法是有效的,但当它们的支持不一致时,它可能不具有普遍性

我们现在引入了一个简单的基线,FreezeD,尽管它很简单,但它的性能优于前面的方法,并为可能的未来方向提出了另外两种方法,它们可能会带来进一步的改进。我们指出,我们的目标不是提倡最先进的技术,而是建立一个简单和有效的基线。通过这样做,我们希望鼓励新技术超越所提议的基线

  • FreezeD(我们提出的基线):我们发现简单地冻结鉴别器的较低层次,只微调上层,表现惊人地好。我们将这个简单而有效的基线称为FreezeD,并将在实验部分演示它相对于前面方法的一致增益。

  • L2-SP[23]。除了之前的方法,我们还测试了L2-SP,众所周知,它对分类器是有效的。在微调的基础上,L2-SP使目标模型不至于远离 source models。特别是,它使源模型和目标模型的参数的L2-norm正规化。在我们的实验中,我们将L2-SP应用于生成器、判别器和两者,但结果并不理想。然而,由于冻结层可以被看作是对所选层给予L2-SP的无限权重,而对其他层给予0,所以对每一层使用适当的权重可能会有更好的表现。

  • 特征蒸馏[16,35]:我们还测试了特征蒸馏,这是最流行的分类器迁移学习方法之一。在这些变体中,我们简单地提取源模型和目标模型的激活(初始化为源模型)。我们发现特征蒸馏的结果与freeze的结果相当,但需要两次计算。研究更先进的技术(例如,[1,18,34])将是一个有趣和有前景的未来方向。

A. Ablation Study on Freezing Layers

我们在表5和表6中分别研究了StyleGAN和SNGAN-projection的判别器的冻结层的效果。在StyleGAN中,第4层始终显示出最佳性能。然而,在SNGAN-projection中,第{3、2、1}层分别对Oxford Flower、CUB-200-2011和Caltech-256数据集是最好的。这是因为Caltech-256与Oxford Flower相比更难学习(即分布转移更大)。直观地说,人们应该减少对模型的限制,以适应大的分布偏移。我们还可以看到,对于《牛津花》数据集,FreezeD的稳定性不如微调。我们观察到,特征提炼显示出更好的稳定性,同时在我们的早期实验中显示出类似的最佳性能。调查一个更复杂的方法将是一个有趣的研究方向。

在这里插入图片描述

表5:在Animal Face数据集的“猫”和“狗”类下StyleGAN架构上D冻结层的消融研究。第i层表示该鉴别器的前i层被冻结。第4层表现最好

在这里插入图片描述

表6:在Oxford Flower, CUB-200-2011, Caltech-256数据集下对SNGAN-projection架构上D的冻结层的消融研究。第i层表示鉴别器的前i层被冻结。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值