CVPR 2021 TransGAN: Two Transformers Can Make One Strong GAN

动机
  1. GANs的训练不稳定性。

    生成性对抗性网络(GANs)在众多任务中获得了相当大的成功,包括图像合成,图像翻译和图像编辑。然而,由于GANs的训练不稳定性,即使目前已经投入很多努力来稳定GAN训练,彻底解决这个问题,需要做进一步研究。

  2. 改进GAN的另一条平行途径是检查它们的神经结构。

    经过对GAN的大量研究,发现当充当(生成器)主干时,流行的神经架构在所考虑的数据集上表现得相当好。他们的消融研究表明,在ResNet家族结构中应用的大多数变化导致样本质量的微乎其微的改善。然而,之后有研究将神经结构搜索(NAS)引入到GANs中,并表明,就像对其他计算机视觉任务一样,增强的主干设计对于进一步改进GANs也同样重要,进而提出了比标准ResNet拓扑结构更强的GAN体系结构。

  3. 以往的研究大多是使用卷积神经网络(CNNs)作为GAN的骨干。

    最初的GAN使用的是全连接网络,只能生成小图像。DCGAN是第一个使用CNN架构放大GAN的方法,该架构允许更高分辨率和更深生成模型的稳定训练。此后,在计算机视觉领域,几乎每一个成功的GAN都依赖于基于CNN的生成器和判别器。卷积对自然图像具有很强的归纳偏好,对当前GAN所获得的吸引人的视觉结果和丰富的多样性起到了至关重要的作用。

  4. 能建立一个完全没有卷积的强GAN吗?

    这不仅是一个出于求知欲的问题,而且也是一个具有实际意义的问题。从根本上说,卷积算子有一个局部感受野,因此CNN不能处理长时依赖关系,除非通过足够多的层。然而,这可能会导致特征分辨率和精细细节的损失,以及优化的困难。因此,传统的基于CNN的模型(包括常规的GAN)本质上不太适合于捕捉输入图像的“全局”统计数据,这可以通过计算机视觉中采用自我注意力和非局部操作的益处得到证实。

  5. 最近人们对transformers的强烈兴趣表明,它们有可能成为计算机视觉任务(如分类、检测和分段)的强大“通用”模型。transformer已经在自然语言处理(NLP)中盛行,并且最近,在各种视觉基准中开始表现得与他们的CNN competitors相当甚至更好。对于计算机视觉,transformer的魅力至少表现在两个方面:

    (1) 它具有很强的表征能力,没有人为定义的归纳偏好。相比较而言,CNN表现出对特征局部性的强烈偏向,以及由于在所有位置上共享滤波器权重而具有空间不变性;

    (2) transformer架构是通用的,概念上是简单的,并且有可能成为跨任务和领域的强大的“通用”模型。它可以摆脱在基于CNN的模型中常见的许多ad-hoc构建块。

方法
简介

不同于以往仅应用自我注意力或transformer编码器块结合基于CNN的生成模型的工作,首次利用纯transformer结构构建一个完全无卷积的GAN。然而,由于以前计算机视觉中所有纯粹基于transformer的模型都专注于分类和检测等判别任务,提出的GAN面临着几个令人生畏的挑战。首先,尽管直接应用于图像块序列的纯transformer架构可以在图像分类任务上表现得非常好,但不清楚相同的方式在生成图像时是否仍然有效,这对结构、颜色和纹理的空间一致性提出了很高的要求。现有的少数几个输出图像的transformer都一致地利用了基于CNN的部分编码器或卷积特征提取器。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值