该系列一共分成N篇文章,对照论文实现每个细节,并附上源码,该系列完成最后会附上github地址。
目录(文章发布后会补上链接):
- 网络结构简介
- Mapping NetWork 实现
- PositionalEmbedding 实现
- MLP 实现
- MSA多头注意力 实现
- SLN自调制 实现
- CoordinatesPositionalEmbedding 实现
- ModulatedLinear 实现
- Siren 实现
- Generator生成器 实现
- PatchEmbedding 实现
- ISN 实现
- Discriminator鉴别器 实现
- VITGAN 实现
注:CoordinatesPositionalEmbedding 与 ModulatedLinear 实现可能存在问题,这是图中Fourier Embedding部分,导致一直没训练成功,其他模块确认过,应该没问题,有大佬如果知道请留言,谢谢!
摘要
最近,视觉转换器 (ViTs) 在图像识别方面表现出具有竞争力的性能,同时需要较少的视觉特定归纳偏差。在本文中,我们研究了这种观察是否可以扩展到图像生成。为此,我们将 ViT 架构集成到生成对抗网络 (GAN) 中。我们观察到,现有的 GAN 正则化方法与自我注意的相互作用很差,导致训练过程中严重的不稳定。为了解决这个问题,我们引入了新的正则化技术来训练带有 ViT 的 GAN。根据经验,我们的方法名为 ViTGAN,在 CIFAR-10、CelebA 和 LSUN 卧室数据集上实现了与最先进的基于 CNN 的 StyleGAN2 相当的性能。
简介
卷积神经网络 (CNN) [31] 凭借其强大的卷积(权重共享和局部连接)和池化(平移等效性)能力,如今在计算机视觉领域占据主导地位。然而,最近,Transformer 架构 [55] 开始在图像 [9, 15, 51] 和视频 [5, 3] 识别任务中与 CNN 相媲美。特别是,Dosovitskiy 等人已经展示了 Vision Transformers (ViTs) [15],它将图像解释为一系列标记(类似于自然语言中的单词)。在 ImageNet 基准上以更小的计算预算(即更少的 FLOP)实现可比的分类精度。与 CNN 中的局部连接不同,ViT 依赖于全局上下文表示,其中每个补丁都涉及同一图像的所有补丁。 ViT 及其变体 [51, 50] 虽然仍处于起步阶段,但在建模非本地上下文依赖项 [42, 48] 以及出色的效率和可扩展性方面已显示出可喜的优势。自最近成立以来,ViT 已被用于各种其他任务,例如对象检测 [4]、视频识别 [5、3]、多任务预训练 [8] 等。
在本文中,我们感兴趣的是检查视觉转换器是否可以在不使用卷积或池化的情况下完成图像生成任务,更具体地说,是否可以使用 ViT 来训练具有竞争力的生成对抗网络 (GAN)研究了基于 CNN 的 GAN。为此,我们按照原始 ViT [15] 的设计使用 Vanilla-ViT 训练 GAN(如图 2 (A) 所示)。挑战在于 GAN 训练在与 ViT 结合时变得非常不稳定,并且在鉴别器训练的后期阶段,对抗性训练经常受到高方差梯度(或尖峰梯度)的阻碍。此外,传统的正则化方法,如梯度惩罚 [19, 33]、谱归一化 [35] 无法解决不稳定性问题,即使它们被证明对基于 CNN 的 GAN 模型有效(如图 4 所示)。由于在具有适当正则化的基于 CNN 的 GAN 训练中不稳定的训练并不常见,这对基于 ViT 的 GAN 的设计提出了独特的挑战。
因此,在本文中,我们提出了一些必要的修改来稳定训练动态并促进基于 ViT 的 GAN 的收敛。在鉴别器中,我们重新审视了自注意力 [28] 的 Lipschitz 属性,并进一步设计了一种改进的谱归一化,以强制执行Lipschitz 连续性。与无法解决不稳定性问题的传统光谱归一化不同,这些技术在稳定基于 ViT 的鉴别器的训练动态方面表现出高效。我们进行了消融研究(图 4 和表 3b),以验证所提出技术的必要性及其在实现稳定和卓越的图像生成性能方面的核心作用。对于基于 ViT 的生成器,我们研究了各种架构设计,并发现了对层规范化和输出映射层的两个关键修改。实验表明,改进的基于 ViT 的生成器可以更好地促进基于 ViT 和基于 CNN 的鉴别器的对抗性训练。
我们在三个标准图像合成基准上进行实验。结果表明,我们的模型,名为 ViTGAN,大大优于之前基于 Transformer 的 GAN 模型 [23],并且即使不使用卷积或汇集。据我们所知,所提出的 ViTGAN 模型是最早在 GAN 中利用 Vision Transformer 的方法之一,更重要的是,第一个展示了这种 Transformer 在最先进的卷积架构上的可比性能 [27, 6 ] 在标准图像生成基准上,包括 CIFAR、CelebA 和 LSUN 卧室数据集。
结果
参考资料: