Self-Attention Generative Adversarial Networks

最新推荐文章于 2024-08-09 08:26:54 发布

qq_36356761

最新推荐文章于 2024-08-09 08:26:54 发布

阅读量1.6k

点赞数

分类专栏： deep learning

本文链接：https://blog.csdn.net/qq_36356761/article/details/80641147

版权

SAGAN利用自我注意力机制解决传统GAN在处理结构模式时的困难，通过全局相关性建模提高图像生成的细节和真实性。文章介绍了SAGAN的原理，包括注意力驱动的长范围依赖建模，以及采用谱范数归一化和两时间尺度更新规则(TTUR)来稳定训练。实验结果显示，SAGAN在图像质量和结构一致性方面表现出优势。

摘要由CSDN通过智能技术生成

Self-Attention Generative Adversarial Networks

Han Zhang(Rutgers University), Ian Goodfellow(Google Brain), Dimitris Metaxas(Rutgers University),Augustus Odena(Google Brain)

引言

任务：图像生成/图像合成
问题：传统方法在低分辨率特征图上生成空间局部点，而SAGAN（Carl Sagan?）利用所有位置的特征线索生成细节；判别器可以判断高度细节化的特征之间的兼容性；对生成器进行谱范数归一化有利于训练
attention-driven, long range dependency modeling

问题

利用GAN进行图像合成，对于含有较少结构约束的类别（比如海洋、天空和地面等重纹理不重结构的）比较成功，而对于含有几何或结构模式的则容易失败，比如合成的狗的图像具有真实的毛但是很难认出脚。
可能的原因：CNN的卷积层具有感受野，因此利用CNN建模必须具有足够的深度才能在较大空间范围内建立图像不同区域的相关性，但这会导致更大的计算代价。
因此本文提出Self-attention GAN以平衡long range dependency modeling和计算代价的问题。

原理

attention捕捉全局相关性
self-attention/intra-attention: 通过attend同一序列内的所有位置，计算序列中下一位置的相应。已经被用在机器翻译、图像生成和视频的时空相关性建模中，但和GAN结合的还没有人尝试过
基于视频时空建模的non-local model
计算各位置特征的加权和作为响应，而权重即attention map的计算代价是较小的
具体过程如下
这里写图片描述
对于每一层的特征 $x\in \mathbb{R}^{C \times N}$ ，首先计算特征 f=Wfx,g=Wg