本文工作
对于语义分割问题中的类内差异大,不容易分类的问题,普遍的解决思路是在特征图中加入更加全局的语义信息,例如空洞空间金字塔池化(aspp)操作,在特征图中融合多尺度的全局特征;或者编解码结构,融合高层语义上的和浅层空间结构上的特征;或者在顶层特征图上融合更加全局的语义信息作为指导。而这篇文章主要从注意力机制的角度出发,使用了位置和通道两种注意力机制来获取更加丰富的全局语义信息。文中的注意力操作方式和non-local自注意力机制操作方式比较相似。
主要贡献有三个:
1.提出自注意力机制增强分割任务的表达能力
2.两个注意力模块在局部特征上建模丰富的上下文依赖关系,显着改善了分割结果。
3.在cityscape和coco还有pascal上sota
网络结构
首先将图像输入预训练的带空洞卷积的resnet中得到C x H x W的特征图,然后分别经过位置和通道注意力模块,最后将两张特征图相加再8倍上采样到原图大小。位置注意力模块的具体操作是,假设输入的特征图是A,形状是C x H x W,将其reshape为形状CxN的矩阵B和C,其中N=HxW。然后计算C.T x B,得到N*N的矩阵,这个矩阵则编码了原始特征图的每个点特征之间的相似性信息,对该矩阵的行向量或者列向量做softmax归一化计算相关性得分,得到注意力矩阵S, 形状为NxN。如果是对列向量做softmax的话,则S矩阵的每列含义即为原始特征图每个像素的相关性大小。因为将原特征图A和S做矩阵乘法,得到各点加权后的特征图。最后和原始的特征图A相加,感觉有点残差连接的意思,原论文中说设计了一个可学习的alpha参数,在学习中逐渐分配给加权后的特征图更多的权重。通道注意力机制的操作和位置注意力的操作类似,就不再赘述了。
可视化实验
作者通过可视化的方式,验证位置注意力机制的作用,效果:
第一列标红的点为作者希望关注的区域,在第二列和第三列位置注意力子图中,可以看到注意力模块可以跨越较远的范围捕捉相似性区域。第四第五列通道注意力子图中,进一步加深了这些区域的关注程度。