DANet:Dual Attention Network for Scene Segmentation 论文翻译(学习)2019-8-30

 

目录

1.Introduction

2.Related Work

3.Dual Attention Network

    3.1.Overview

    3.2.Position Attention Module

    3.3.Channel Attention Module

    3.4.Attention Module Embedding with Networks

4.Experiments

     4.1.Datasets and Implementation Details

           4.1.1.Implementation Details

     4.2.Results on Cityscapes Dataset

                    4.2.1.Ablation Study for Attention Modules

            4.2.2.Ablation Study for Improvement Strategies

             4.2.3.Visualization of Attention Module

            4.2.4.Comparing with the-state-of-art

     4.3.Results on PASCAL VOC 2012 Dataset

    4.4. Results on PASCAL context Dataset

    4.5. Results on COCO Stuff Dataset

5.Conclusion

paper:https://arxiv.org/pdf/1809.02983.pdf

code:https://github.com/junfu1115/DANet

1.Introduction

场景分割

  • 特点:基本的,有挑战性的
  • 目的:将图片分割成不同的区域并理解它,这些区域与语义类别有关,包括stuff(sky、road、grass)和不连续的对象(person、car、bocycle)
  • 应用:自动驾驶、机器视觉、图像编辑
  • 实现要求:区分混淆的类别、考虑不同外观的对象    ————>>  场景分割
  • 结论(提出问题):增强像素级识别特征表示的判别能力很有必要。
  • 发展历史(解决问题):FCNs

            方法一: utilize the multi-scale context fusion:

文献列举+指出问题( Although the context fusion helps to capture different scales objects, it can not leverage the relationship between objects or stuff in a global view, which is also essential to scene segmentation. )

            方法二: employs recurrent neural networks to exploit long-range dependencies

文献列举+指出问题( these methods capture the global relationship implicitly with recurrent neural networks, whose effectiveness reliesheavilyonthelearningoutcomeofthelong-termmemorization. )

           提出DNNet(解决问题):总体(引入 self-attention mechanism)+具体(position attention module+ channel attention module+融合)

  • DNNet的优势:处理复杂多样的场景时更加有效灵活,如图1:

first:第一行中的一些人和交通灯由于光照和视野的影响,不明显或不完整。如果探索简单的上下文嵌入,那么主要的显眼目标的上下文将会影响不明显的对象标签。   相反,attention 模块选性的聚合了不显眼目标的相似特征以增强他们的特征表达,避免了显眼目标的影响。

second:car和person的大小不同,辨认这种不同大小的目标需要不同尺度上的上下文信息。也即是:平等的对待不同尺度上的特征以表示相同的语义。我们带有注意机制的model目标仅在于:从全局视角上,自适应性的聚合任意尺寸的相似特征。这可以在某种程度上解决上述问题。

third:我们明确的考虑空间和位置之间的关系,使得场景理解从long-range 依赖中获益。

  • 主要贡献

1、DANet的提出:提出带注意机制的DANet,增强了场景分割特征表示的判别能力;

2、两个模块:位置注意模块用来学习特征的空间依赖性,通道注意模块用来模拟通道依赖性。对局部特征模拟大量的上下文依赖显著的提高了分割结果。

3、测试:在三个流行的基准测试中获得了最新的结果,Cityscapes、PASCAL Context、COCO Stuff。

2.Related Work

  • Semantic Segmentation. 基于FCNs的方法在语义分割方面取得了很大进展。以下几种模型的变体以增强上下文融合。   

           first:Deeplabv2、v3     采用带孔的金字塔池化来嵌入上下文信息,由不同扩张率的并行扩张卷积组成。

                    PSPnet     金字塔池化模块来收集有效的上下文先验,包括不同尺寸的信息。

                    编解码器结构    融合中高级语义特征,来获得不同尺寸的上下文。

           second:学习局部特征的上下文依赖关系有助于特征表达。

                    DAG-RNN    利用循环神经网络建立有向无环图模型(??),以获取丰富的上下文依赖关系。

                    PSANet   用卷积层和空间维度的相关位置信息   来获取像素间的关系。

                    OCNet     带ASPP的自我注意机制   来挖掘上下文依赖关系。

                    EncNet   引入通道注意机制   来获取全局上下文。

  • Self-attention Modules. 注意模块对long-range 依赖关系建立模型,被广泛应用在很多任务中。

             [1]中首先提出自我注意机制来获取输入的全局依赖,并应用在机器翻译中。同时,attention module也逐渐应用在图像视觉领域。

            [29]引入自我注意机制来学习更好的图像生成器。

            [23] 与自我关注模块有关,主要探讨视频和图像在时空维度上的非本地操作的有效性。

  • 与前者不同,我们将自我注意机制推广到场景分割任务中。精心设计了两种注意模块来获取丰富的上下文关系,以便用类内紧凑性实现更好的特征表达。 综合实验结果验证了我们提出的方法的有效性。

3.Dual Attention Network

    3.1.Overview

    <
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值