一.主要贡献:
1.提出了一种具有自注意机制的双重注意网络,提高了场景分割中特征表示的能力;
2.提出了位置注意模块来学习特征的空间相关性,提出了通道注意模块来建模通道相关性,通过在局部特征上建模丰富的上下文依赖关系,极大地改善了分割结果;
3. 在Cityscapes dataset , PAS-CAL Context dataset and COCO Stuff dataset这三个数据集上都得到了极佳的结果。
二.整体流程:
1.首先输入一张图像,通过预训练的dilated ResNet输出feature map
(注意:
在最后两个ResNet块中删除了下采样操作并使用了dilated convolutions,从而使最终特征图的大小扩大到输入图像的1/8
);
2.然后将feature map输入到position attention module和channel attention module这两个并行注意力模块中,去捕获spatial和channel的依赖性;
3.最后通过一个卷积层,对两个注意力模块的输出进行变换,再进行求和得到最终表示。
整体流程如下图所示
![](https://i-blog.csdnimg.cn/blog_migrate/1b6146158d48d48bc213a17cba48d6ee.png)
三.位置和通道注意力模块
1.Position attention module:
选择性地通过所有位置的加权求和聚集每个位置的特征,无论远近,相似的特征都会相互关联。
![](https://i-blog.csdnimg.cn/blog_migrate/6f0a95f440f34d94a082cdb0ed29927f.png)
流程:
(1).给定一个局部特征
A,首先将其输入卷积层,分别生成3个新的特征映射
B、
C、
D,将
B、
C、
D reshape成CxN(N=HxW),再对
B进行转置;
(2).然后将reshape后的
C和reshape+transpose后的
B进行矩阵乘法,经过softmax得到空间注意力map:
S;
S和
D相乘,再reshape回最初的大小;
(3).上述结果与
A相加得到
E。
具体公式:
S的计算公式(ji表示位置i对位置j的影响):
![](https://i-blog.csdnimg.cn/blog_migrate/2c02033517bfe7517217abe94d07eb37.png)
(从上式可以看出,
S矩阵其实就相当于是一个空间注意力矩阵。)
E的计算公式(尺度系数α被初始化为0,并逐渐的学习分配到更大的权重):
![](https://i-blog.csdnimg.cn/blog_migrate/b9f5fd878520e63af3b385c037adf5ef.png)
2.Channel attention module:
捕获任意两个通道图之间的通道依赖关系,并使用所有通道图的加权和来更新每个通道图。
![](https://i-blog.csdnimg.cn/blog_migrate/1313913e7dfedc60a3f45ce132657442.png)
流程:
通道注意力模块的第一步处理与位置注意力模块的有所不同,它是直接从
A进行计算的;
其他的reshape、transpose、矩阵乘法等操作均与位置注意力模块的一样。
具体公式:
X的计算公式(ji表示通道i对通道j的影响):
![](https://i-blog.csdnimg.cn/blog_migrate/670280e1a5fe17cfe0215f2761a2ec5b.png)
(
X矩阵也就相当于是一个通道注意力矩阵。)
E的计算公式(尺度系数 β被初始化为0,并逐渐的学习分配到更大的权重):
![](https://i-blog.csdnimg.cn/blog_migrate/24d1e970f34eb8c0371ddc585fc7697c.png)
四.两通道特征的融合
如整体流程图所示,网络的最后是将两个通道的输出通过一个卷积层,对其进行变换,再进行求和即可得到最终表示。