语义分割Dual Attention Network for Scene Segmentation

Dual Attention Network for Scene Segmentation

本文工作

对于语义分割问题中的类内差异大,不容易分类的问题,普遍的解决思路是在特征图中加入更加全局的语义信息,例如空洞空间金字塔池化(aspp)操作,在特征图中融合多尺度的全局特征;或者编解码结构,融合高层语义上的和浅层空间结构上的特征;或者在顶层特征图上融合更加全局的语义信息作为指导。而这篇文章主要从注意力机制的角度出发,使用了位置和通道两种注意力机制来获取更加丰富的全局语义信息。文中的注意力操作方式和non-local自注意力机制操作方式比较相似。
主要贡献有三个:
1.提出自注意力机制增强分割任务的表达能力
2.两个注意力模块在局部特征上建模丰富的上下文依赖关系,显着改善了分割结果。
3.在cityscape和coco还有pascal上sota

网络结构

网络结构首先将图像输入预训练的带空洞卷积的resnet中得到C x H x W的特征图,然后分别经过位置和通道注意力模块,最后将两张特征图相加再8倍上采样到原图大小。位置注意力模块的具体操作是,假设输入的特征图是A,形状是C x H x W,将其reshape为形状CxN的矩阵B和C,其中N=HxW。然后计算C.T x B,得到N*N的矩阵,这个矩阵则编码了原始特征图的每个点特征之间的相似性信息,对该矩阵的行向量或者列向量做softmax归一化计算相关性得分,得到注意力矩阵S, 形状为NxN。如果是对列向量做softmax的话,则S矩阵的每列含义即为原始特征图每个像素的相关性大小。因为将原特征图A和S做矩阵乘法,得到各点加权后的特征图。最后和原始的特征图A相加,感觉有点残差连接的意思,原论文中说设计了一个可学习的alpha参数,在学习中逐渐分配给加权后的特征图更多的权重。通道注意力机制的操作和位置注意力的操作类似,就不再赘述了。
在这里插入图片描述
在这里插入图片描述

可视化实验

作者通过可视化的方式,验证位置注意力机制的作用,效果:
在这里插入图片描述
第一列标红的点为作者希望关注的区域,在第二列和第三列位置注意力子图中,可以看到注意力模块可以跨越较远的范围捕捉相似性区域。第四第五列通道注意力子图中,进一步加深了这些区域的关注程度。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值