对视觉显著性检测（Saliency Object Detection）中Channel Attention的一些总结

最新推荐文章于 2024-07-29 17:29:05 发布

Cheungleilei

最新推荐文章于 2024-07-29 17:29:05 发布

阅读量4.3k

点赞数 4

分类专栏：计算机视觉视觉显著论文阅读文章标签：人工智能 python 机器学习计算机视觉

本文链接：https://blog.csdn.net/Cheungleilei/article/details/104662699

版权

计算机视觉同时被 3 个专栏收录

16 篇文章 2 订阅

订阅专栏

论文阅读

10 篇文章 0 订阅

订阅专栏

视觉显著

7 篇文章 0 订阅

订阅专栏

因为最近的paper涉及，所以对channel attention进行了了解，比较浅显，但是以此篇博客记录，之后有相关进展，也会更新。已经有很多相关的文章对Attention的本质，原理进行介绍。例如：
Attention综述：基础原理、变种和最近研究
我挑一些我学习过程中觉得重要的点。

Attention 本质

首先，Attention的本质是一个查询（query）到一系列（键key-值value）对的映射，也就是一个寻址过程（addressing）。
计算Attention的过程：
1.将query和每一个key进行相似度计算得到权重
2.对权重进行归一化
3.权重和相应键值value进行加权求和得到Attention
我知道这样解释了一番看起来还是非常生涩难懂。但是请记住，Attention的作用是从大量信息中将一些重要的点筛选出来，忽略其他不重要的点。
结合一张图来说：

在这里插入图片描述
在视觉显著中，将query看作特征图，计算query和虚线框source中的每个key的相似度（相似度可以通过内积相似度、余弦相似度或者拼接相似度得到得到）。根据相似度可以得到每个key对应value的权重系数。通常，为了限制权重的大小，会将权值进行归一化或者缩放（常采用softmax函数或者用sigmoid函数火tanh函数进行单独归一化）。最后对value进行加权求和，就得到了Attention的数值。
可以用一个公式来表示以上的过程：
$\sum_{i=1}^{L_x} Similarity(query, key_i) * value_i$
L_x代表了Source的长度。权重越大，attention就越聚焦到其对应的value值上，也就是权重代表了信息的重要性，value是其对应的信息。

Channel Attention

Attention一般有Spatial Attention和Channel Attention两种。接下来要说的Channel Attention是Attention的其中一种。Channel Attention是作用在channel尺度上的，给不同的通道特征加权。对于一个C×H×W的特征图来说，channel attention的C权重是不同的，而平面H*W的权重相同。要做的就是对每一个C，在Channel的维度上，学到不同的权重。

Channel Attention Model

这一节主要说的是文章Dual Attention Network for Scene Segmentation中的Channel Attention Model（CAM）。CAM捕获了channel之间的相互依赖关系，更关注特征图中实体区域的贡献，减弱背景的影响。
在这里插入图片描述
CAM使用类似self attention机制（输入=输出的这种特殊情况下的注意力计算机制。query，key和value一样）来得到channel图之间的相似度，再使用channel图的加权来更新。最终得到一个计算注意力的矩阵，起到加强特征的作用。
在这里插入图片描述

下面对CAM进行细节分析，参考上图：
① 把Feature A的维度reshape为C×N （N=H×W）并得到A的转置矩阵。
② 将①与②进行element-wise的矩阵相乘。
③ 经过softmax，得到注意力图矩阵X
④ 把X^T与A做矩阵乘法，得到维度C*R
⑤ reshape为C×H×W。
⑥ 乘上参数γ，与A相加，得到输出E。
再结合具体代码：

class CAM_Module(Module):
    """ Channel attention module"""
    def __init__(self, in_dim):
        super(CAM_Module, self).__init__()
        self.chanel_in = in_dim

        self.gamma = Parameter(torch.zeros(1))
        self.softmax  = Softmax(dim=-1)
    def forward(self,x):
        """
            inputs :
                x : input feature maps( B X C X H X W)
            returns :
                out : attention value + input feature
                attention: B X C X C
        """
        m_batchsize, C, height, width = x.size()
        proj_query = x.view(m_batchsize, C, -1) 
        #view()将tensor维度变为指定维度，-1表示剩下的值一起构成一个维度
        proj_key = x.view(m_batchsize, C, -1).permute(0, 2, 1)
        #permute()做维度换位
        energy = torch.bmm(proj_query, proj_key)
        #torch.bmm()做矩阵乘法
        energy_new = torch.max(energy, -1, keepdim=True)[0].expand_as(energy)-energy
        #这句话防止梯度爆炸
        #expand_as()把一个tensor变成和函数括号内一样形状的tensor
        attention = self.softmax(energy_new)
        proj_value = x.view(m_batchsize, C, -1)

        out = torch.bmm(attention, proj_value)
        out = out.view(m_batchsize, C, height, width)

        out = self.gamma*out + x
        return out