SAGAN——Self-Attention Generative Adversarial Networks

最新推荐文章于 2024-06-22 09:36:30 发布

cshaoshen

最新推荐文章于 2024-06-22 09:36:30 发布

阅读量1.8w

点赞数 8

文章标签：计算机视觉 GAN网络注意力机制

我的Github:https://github.com/it-hao

本文链接：https://blog.csdn.net/HaoTheAnswer/article/details/82733234

版权

原论文下载地址：Self-Attention Generative Adversarial Networks

该文章作者为：Han Zhang

GitHub代码实现：pytorch实现

摘要部分：

本文提出了Self-Attention Generative Adversarial Networks，在注意力机制，远距离依赖（long-range dependency）下来实现了图片生成任务。（1）传统的卷积GAN网络，是通过低分辨率图像中的空间局部点来生成高分辨率细节特征。而在SAGAN中，可以使用根据所有位置的提示来生成详细信息。（2）因为判别器可以检查图像的远端部分中的高度详细的特征是否彼此一致。而最近的研究表明，对生成器进行有效的调节可以影响GAN网络的性能，所以我们在GAN网络的generator中加入了光谱正则化（spectral normalization）。最终达到了比较好的效果。

提出问题：

convolutional GANs have much more difficulty modeling some image classes than others when trained on multi-class datasets . For example, while the state-of-the-art ImageNet GAN model excels at synthesizing image classes with few structural constraints (e.g. ocean, sky and landscape classes, which are distinguished more by texture than by geometry), it fails to capture geometric or structural patterns that occur consistently in some classes (for example, dogs are often drawn with realistic fur texture but without clearly defined separate feet)。

在多种类别的数据集上训练时，卷积GAN网络比其他图像类更难以建模，也就是说GAN网络很容易合成具有少量结构约束的图像（像星空，海洋...），

在目前的图像生成模型中，一般很难处理好细节和整体的权衡

可能原因：

对此的一种可能解释是先前的模型严重依赖于卷积来模拟不同图像区域之间的依赖性。由于卷积运算符具有局部感受域，因此只能在经过多个卷积层之后处理长距离依赖性（long-range dependency）。这可能会因各种原因阻止学习长期依赖性：

（1）小型模型可能无法找到他们之间的依赖关系；

（2）优化算法可能无法发现仔细协调多个层以捕获这些依赖性的参数值；

（3）增加卷积核的大小可以增加网络的表示能力，但是又会丧失卷积网络的参数和计算效率。

解决办法-即SAGAN的优点：

self-attention 在模拟远程依赖性的能力、计算效率和统计效率之间展现出更好的平衡。自我关注模块将所有位置处的特征的加权和作为该位置的响应，其中权重 - 或注意向量 - 仅以较小的计算成本来计算。

我们提出了自我注意生成对抗网络（SAGAN），它将self-attention机制引入卷积GAN。

（1）可以很好的处理长范围、多层次的依赖(可以很好的发现图像中的依赖关系)

（2）生成图像时每一个位置的细节和远端的细节协调好