Self-Attention Generative Adversarial Networks
Han Zhang(Rutgers University), Ian Goodfellow(Google Brain), Dimitris Metaxas(Rutgers University),Augustus Odena(Google Brain)
引言
任务:图像生成/图像合成
问题:传统方法在低分辨率特征图上生成空间局部点,而SAGAN(Carl Sagan?)利用所有位置的特征线索生成细节;判别器可以判断高度细节化的特征之间的兼容性;对生成器进行谱范数归一化有利于训练
attention-driven, long range dependency modeling
问题
利用GAN进行图像合成,对于含有较少结构约束的类别(比如海洋、天空和地面等重纹理不重结构的)比较成功,而对于含有几何或结构模式的则容易失败,比如合成的狗的图像具有真实的毛但是很难认出脚。
可能的原因:CNN的卷积层具有感受野,因此利用CNN建模必须具有足够的深度才能在较大空间范围内建立图像不同区域的相关性,但这会导致更大的计算代价。
因此本文提出Self-attention GAN以平衡long range dependency modeling和计算代价的问题。
原理
attention捕捉全局相关性
self-attention/intra-attention: 通过attend同一序列内的所有位置,计算序列中下一位置的相应。已经被用在机器翻译、图像生成和视频的时空相关性建模中,但和GAN结合的还没有人尝试过
基于视频时空建模的non-local model
计算各位置特征的加权和作为响应,而权重即attention map的计算代价是较小的
具体过程如下
对于每一层的特征 x∈RC×N x ∈ R C × N ,首先计算特征 f=Wfx,g=Wg