CVPR 2019 | 用于场景分割的双重注意力网络

场景分割是目前应用前景非常广泛的方向之一,对场景进行精确的分割始终有着显著的实际意义并且极富挑战。来自中国科学院自动化研究所模式识别国家重点实验室的文章《Dual Attention Network for Scene Segmentation》采用了创新的双重注意力,在传统的主干网络FCN中加入了双注意力模块,将两个注意力模块的输出相加来进一步改进特征表示,最终自适应地了集成空间和通道维度本地特征的全局依赖性,在该任务上取得了优秀的效果。

论文地址:
https://arxiv.org/abs/1809.02983

数据集

Cityscapes数据集,训练集2979张图片,验证集500张图片,测试集1525张图片,共有19种标签。
PASCAL VOC 2012数据集,训练集10582张图片,验证集1449张图片和测试集1456张图片,共有20中标签。
PASCAL Context数据集,训练集4998张图片,测试集5105张图片。

模型

模型结构

双重注意力网络概观
在场景分割问题中,相同的物体在不同的光照、位置等情况下是很不相似的,由于卷积计算具有局部感受野,而相同标签又有着像素的差异,这些原因导致传统的FCN分割效果不佳。因此在本论文中,通过作者设计的DANet将注意力机制扩展到场景分割任务中,使得特征表示更加紧凑,有效的提高了分割的准确性。模型整体使用一个预训练的带有膨胀卷积的残差网络为主干,在最后两个残差块中去除下采样并且使用膨胀卷积(操作和deeplab前半部分基本类似),然后将特征图输入到两个并行的注意力模块。上半部分为空间注意力模块,下半部分为通道注意力模块。
空间注意力模块首先使用卷积层得到降维的特征,之所以降维是因为这样可以很好的提取特征并且附带着降低运算量,再者,因为自注意力模块计算的是自身的注意力,假如不通过卷积层,通常任何位置必然和自己拥有最大的softmax值,难以得到表达能力强的attention权值矩阵。接着,通过注意力公式得到空间注意矩阵。
空间注意力模块

自注意力公式是将一个batch内三维张量按照空间展开成两维,一维为空间位置,另一维为通道层数,通过自身对自身的矩阵乘法再做softmax得到自注意力权重矩阵。得到权重矩阵之后,自身与权重矩阵做矩阵乘法最终得到自注意力生成的矩阵,改变维度为三维张量,即由空间注意矩阵和D以及最原始的输入A得到空间注意特征图。

通道注意力模块整体流程和空间注意力模块类似,唯一的区别是不需要卷积层进行降维,通道注意力不降维是实验得出的结果。
通道注意力模块

实验结果

带有空间注意力模块的效果比较
带有通道注意力模块的效果比较
从比较结果可知,双注意力都可以得到更加精确有效的空间表达,从位置和类别两方面让语义分割的结果更优秀。
Cityscapes测试集每个类的结果
在Cityscapes测试集中,DANet性能优于所有的现有方法,在平均IOU上达到81.5%的指标。

结论

通过实验结果的定性与定量分析可知,双重注意力模块能够有效地得到大范围内特征的全局依赖性,从空间位置关系和通道类别关系两方面优化特征的表达能力,使分割结果更加精确。与此同时也可知,NLP中提出的self attention不仅在文本任务中表现优秀,在图像的各个领域同样表现良好,提醒我们多交叉使用不同方向的思想。



扫码识别关注,获取更多论文解读

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值