Self-Attention Generative Adversarial Networks
文章目录
我们提出了SAGAN,SAGAN对于图像生成任务允许注意力驱使、长距离依赖建模。传统的卷积GAN生成高分辨率细节,仅仅作为在低分辨率特征图上的空间局部点的函数。在SAGAN中,细节可以通过所有特征位置生成。另外,判别器可以检查图像中距离较远的图片部分的高度细节特征是一致的。此外,最近的工作显示,生成器的条件会影响GAN的表现;借鉴于此,我们对GAN的生成器使用了谱归一化并发现其改善了训练力度。
提出的SAGAN使得当前最佳Inception Score从36.8提升到了52.52,Fréchet Inception distance从27.62降到了18.65。注意力层的可视化显示出生成器利用了对应于物体形状的周围而不是固定形状的局部区域。
Introduction
图像合成
DCGAN:很成功,但是在含有多类别的数据集(比如ImageNet)上训练的时候,发现DCGAN建模某些图像类有困难。在对缺少结构限制的图像类进行生成的时候(海洋、天空等),很难抓取几何和结构模式。以往的模型很大程度上依赖卷积,卷积运算是基于一个局部感受野的,所以长距离依赖需要多个卷积层处理。这会阻止长期依赖,原因如下:
- 小模型可能会难以表示这些长期依赖
- 在模型优化阶段发现可以捕获这些依赖的参数是不容易的
- 这些参数化统计学上是不稳定的,在面对未见的输入时容易崩
增大卷积核尺寸可以提高表示能力,不过也会增大计算成本。自注意力机制(self attention)则找到了很好的平衡,sa计算一点的响应作为其他所有位置特征的加权和。
SAGAN
f ( x ) = W f x g ( x ) = W g x f(x) = W_fx\quad g(x) = W_gx\quad f(x)=Wfxg(x)=Wgx
β j , i = e x p ( s i j