自2014年Ian J. Goodfellow等人提出以来,生成对抗网络(GAN,Generative Adversarial Networks)便迅速成为人工智能领域中最有前景的研究方向之一。
而另一方面,Google团队在2017年提出的Transformer架构近年来也如火如荼,迅速从 NLP 领域蔓延到 CV、语音等领域。近期的一些研究表明,Transformer 有足够的潜力成为强大的“通用”模型。基于对这一问题的思考,来自德克萨斯大学奥斯汀分校的江亦凡等人提出这一问题:
Transformer 还能走多远?
换句话说:
Transformer 能否应用到一些极为困难的视觉任务,例如生成对抗网络(GAN)吗?
在这一问题的驱使下,他们近期进行了第一个尝试:丢弃卷积,仅使用 Transformer 架构来 GAN 网络。
与其它基于 Transformer 的视觉模型相比,仅使用 Transformer 构建 GAN 更具挑战性,因为生成真实图像的门槛更高,而且GAN训练的不稳定性也更高。
他们将这个网络命名为:TransGAN。
简单来说,他们使用两个Transformer网络分别构成了生成器和