Self-Attention Generative Adversarial Networks

SAGAN利用自我注意力机制解决传统GAN在处理结构模式时的困难,通过全局相关性建模提高图像生成的细节和真实性。文章介绍了SAGAN的原理,包括注意力驱动的长范围依赖建模,以及采用谱范数归一化和两时间尺度更新规则(TTUR)来稳定训练。实验结果显示,SAGAN在图像质量和结构一致性方面表现出优势。
摘要由CSDN通过智能技术生成

Self-Attention Generative Adversarial Networks

Han Zhang(Rutgers University), Ian Goodfellow(Google Brain), Dimitris Metaxas(Rutgers University),Augustus Odena(Google Brain)

引言

任务:图像生成/图像合成
问题:传统方法在低分辨率特征图上生成空间局部点,而SAGAN(Carl Sagan?)利用所有位置的特征线索生成细节;判别器可以判断高度细节化的特征之间的兼容性;对生成器进行谱范数归一化有利于训练
attention-driven, long range dependency modeling

问题

利用GAN进行图像合成,对于含有较少结构约束的类别(比如海洋、天空和地面等重纹理不重结构的)比较成功,而对于含有几何或结构模式的则容易失败,比如合成的狗的图像具有真实的毛但是很难认出脚。
可能的原因:CNN的卷积层具有感受野,因此利用CNN建模必须具有足够的深度才能在较大空间范围内建立图像不同区域的相关性,但这会导致更大的计算代价。
因此本文提出Self-attention GAN以平衡long range dependency modeling和计算代价的问题。

原理

attention捕捉全局相关性
self-attention/intra-attention: 通过attend同一序列内的所有位置,计算序列中下一位置的相应。已经被用在机器翻译、图像生成和视频的时空相关性建模中,但和GAN结合的还没有人尝试过
基于视频时空建模的non-local model
计算各位置特征的加权和作为响应,而权重即attention map的计算代价是较小的
具体过程如下
这里写图片描述
对于每一层的特征 xRC×N x ∈ R C × N ,首先计算特征 f=Wfx,g=Wg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值