注意力机制学习笔记二（Attention-GAN、SAGAN、YLG-SAGAN）

最新推荐文章于 2025-03-14 20:30:58 发布

努力学习的小白同学

最新推荐文章于 2025-03-14 20:30:58 发布

阅读量7.7k

点赞数 5

文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_45126707/article/details/120908552

版权

一.Attention-GAN

论文地址：Attention-GAN for Object Transfiguration in Wild Images

Object Transfiguration不是将图像作为一个整体来完成变换，它的目的是在不影响背景区域的情况下，将图像中的某一特定类型的目标转换为另一种类型的目标。经典的GAN在做Object Transfiguration时有两个功能：监测感兴趣的目标和将目标从源域转换到另一个域。这两个功能合并到一个网络中会产生一些问题，比如某些背景区域被误当成目标区域。

此文提出的方法是把GAN和Attention做结合来针对野生动物的图片做转换。把生成器的部分分为两个网络，一个来生成一个稀疏Attention map（针对待转换的区域），另一个来负责做转换，之后再将两个网络的输出进行合成得到最终的output。

模型如下图所示：

输入一个 X 域的图像 x ，在一个分支中，将 x 通过一个 attention network 得到和 x 同纬度的score map $A_{X}(x)$ ，它的值是从0-1的，得分高的是感兴趣的区域，低的是背景。在另一个分支中，将 x 通过transformation network 转换到 Y 域的输出 $T(x)$ ，最后使用分层操作(layered operation)得到最终的图像。

同时因为使用了attention map，防止了cycle consistency loss被背景因素干扰。Attention Losses的构建基于X域中x的Attention map和由x转换到Y域中y的Attention map的想法（类似cycle consistency的想法）。

二.Self-Attention Generative Adversarial Networks

论文地址：[1805.08318v1] Self-Attention Generative Adversarial Networks (arxiv.org)

在目前的图像生成模型中，一般很难处理好细节和整体的权衡，原因可能是先前的模型严重依赖于卷积来模拟不同图像区域之间的依赖性。由于卷积运算符具有局部感受域，因此只能在经过多个卷积层之后处理远距离依赖性（long-range dependency），而这可能会因各种原因阻止学习远距离依赖性。

本文提出了SAGAN，通过self-attention机制捕获远距离依赖（long-range dependency）, 使得合成的图片可以捕获到所有位置的feature。

模型如下图所示：

feature maps (x) 通过 1×1 的卷积，即 $f(x)=W_{f}x$ ， $g(x)=W_{g}x$ ，将f(x)的输出转置，并和g(x)的输出相乘，再经过softmax激活函数得到一个attention map( $\beta _{j,i}$ )，即

self.query_conv = nn.Conv2d(in_channels = in_dim , out_channels = in_dim//8 , kernel_size= 1)
self.key_conv = nn.Conv2d(in_channels = in_dim , out_channels = in_dim//8 , kernel_size= 1)

proj_query  = self.query_conv(x).view(m_batchsize,-1,width*height).permute(0,2,1)
proj_key =  self.key_conv(x).view(m_batchsize,-1,width*height)
energy =  torch.bmm(proj_query,proj_key) # bmm means batch matrix multiplication
attention = self.softmax(energy)

h(x)也是x通过 1×1 的卷积得来的，接下来我们再将 $\beta _{j,i}$ 与 h(x)逐像素点相乘，得到自适应的注意力feature maps(o)。

self.value_conv = nn.Conv2d(in_channels = in_dim , out_channels = in_dim , kernel_size= 1)

proj_value = self.value_conv(x).view(m_batchsize,-1,width*height)
out = torch.bmm(proj_value,attention.permute(0,2,1) )
out = out.view(m_batchsize,C,width,height)

最终的输出为：

out = self.gamma*out + x

最后，使用hinge adversarial loss:

注：代码参考自知乎博主刹那 kevin GAN笔记 - SAGAN

三.Your Local GAN

论文地址：Your Local GAN: Designing Two Dimensional Local Attention Mechanisms for Generative Models

注意力机制通过建模像素间关系，能有效地处理复杂的几何形状以及捕获长距离依赖，以进一步提高网络性能。然而，注意力也存在以下限制。首先计算开销大,标准的密集注意力需要的空间和时间成倍增加。其次，计算注意力时将二维的空间结构的tensor展开为一维向量会损失空间特性。针对以上的问题，Your Local GAN（YLG）主要做了以下贡献：

1.引入了局部稀疏注意力层，该层保留了二维图像的局部性，并且可以通过attention steps来支持良好的信息流。

2.使用了信息流图的信息理论框架，以量化信息流的步骤并保持二维局部性。

3.基于SAGAN结构提出了YLG-SAGAN，使得网络的性能和训练时间均得到大幅优化。

4.提出了一种解决GANs反演问题的新方法，能对更大模型的损失进行梯度下降的自然反演过程。

Sparsified Attention：

在SAGAN中，attention maps 表示为 $X'=\sigma \left ( X_{Q} \cdot Y_{K}^{T} \right )\cdot Y_{V}$ ，其中， $\sigma\left ( \right )$ 是softmax函数。

记 $A_{X,Y} = X_{Q}Y_{K}^{T}$ ，本文将 $A_{X,Y}$ 稀疏化, 并将注意力层分成多个部分，稀疏化通过掩码矩阵 $M_{i}\in \left \{ 0,1 \right \}^{N_{X}\times N_{Y}}$ 进行，

$A_{X,Y}^{i}\left [ a,b \right ] =\left\{\begin{matrix} A_{X,Y}\left [ a,b \right ] ,&M^{i}\left [ a,b \right ] =1\\ -\infty , & M^{i}[a,b]=0 \end{matrix}\right.$