语义分割Dual Attention Network for Scene Segmentation

最新推荐文章于 2022-07-25 11:30:09 发布

qq_35515179

最新推荐文章于 2022-07-25 11:30:09 发布

阅读量382

点赞数

本文链接：https://blog.csdn.net/qq_35515179/article/details/96699123

版权

Dual Attention Network for Scene Segmentation

本文工作
- 网络结构
- 可视化实验

本文工作

对于语义分割问题中的类内差异大，不容易分类的问题，普遍的解决思路是在特征图中加入更加全局的语义信息，例如空洞空间金字塔池化（aspp）操作，在特征图中融合多尺度的全局特征；或者编解码结构，融合高层语义上的和浅层空间结构上的特征；或者在顶层特征图上融合更加全局的语义信息作为指导。而这篇文章主要从注意力机制的角度出发，使用了位置和通道两种注意力机制来获取更加丰富的全局语义信息。文中的注意力操作方式和non-local自注意力机制操作方式比较相似。
主要贡献有三个：
1.提出自注意力机制增强分割任务的表达能力
2.两个注意力模块在局部特征上建模丰富的上下文依赖关系，显着改善了分割结果。
3.在cityscape和coco还有pascal上sota

网络结构

网络结构首先将图像输入预训练的带空洞卷积的resnet中得到C x H x W的特征图，然后分别经过位置和通道注意力模块，最后将两张特征图相加再8倍上采样到原图大小。位置注意力模块的具体操作是，假设输入的特征图是A，形状是C x H x W，将其reshape为形状CxN的矩阵B和C，其中N=HxW。然后计算C.T x B，得到N*N的矩阵，这个矩阵则编码了原始特征图的每个点特征之间的相似性信息，对该矩阵的行向量或者列向量做softmax归一化计算相关性得分，得到注意力矩阵S, 形状为NxN。如果是对列向量做softmax的话，则S矩阵的每列含义即为原始特征图每个像素的相关性大小。因为将原特征图A和S做矩阵乘法，得到各点加权后的特征图。最后和原始的特征图A相加，感觉有点残差连接的意思，原论文中说设计了一个可学习的alpha参数，在学习中逐渐分配给加权后的特征图更多的权重。通道注意力机制的操作和位置注意力的操作类似，就不再赘述了。
在这里插入图片描述