引言
这篇是文章是Ian goodfellow他们的新工作,在GAN中引入Attention。
在文章的摘要中作者主要突出了三点。
Self-Attention Generative Adversarial Network(SAGAN)是一个注意力驱动,长范围 关联模型(attention-driven, long-range dependency modeling )。
传统的GAN在生成高分辨率的细节时,是基于低分辨率的feature map中的某一个小部分的。而SAGAN是基于所有的特征点(all feature locations).
在训练时使用了光谱归一化(spectral normalization )来提升训练强度(training dynamics)。
SAGAN的优势
- 可以很好的处理长范围、多层次的依赖(可以很好的发现图像中的依赖关系)
- 生成图像时每一个位置的细节和远端的细节协调好
- 判别器还可以更准确地对全局图像结构实施复杂的几何约束
因为文章提到了long range 所以这里的远端,个人的理解是前几层卷积的output。
SAGAN
作者提到,大多数的GAN都使用了卷积,但是在处理long range依赖时,卷积的效率很低,所以他们采用了non-local model
x 被送入两个特征空间f,g去计算attention。
Bij 表示在生成第j个区域时,是否关注第i个位置。
上面是每个可学习矩阵的纬度,都是用1X1卷积实现的。
在文章的所有实验中都用到了上面这个超参。
之后再带权相加,