目录
3.4.Attention Module Embedding with Networks
4.1.Datasets and Implementation Details
4.2.Results on Cityscapes Dataset
4.2.1.Ablation Study for Attention Modules
4.2.2.Ablation Study for Improvement Strategies
4.2.3.Visualization of Attention Module
4.2.4.Comparing with the-state-of-art
4.3.Results on PASCAL VOC 2012 Dataset
4.4. Results on PASCAL context Dataset
4.5. Results on COCO Stuff Dataset
paper:https://arxiv.org/pdf/1809.02983.pdf
code:https://github.com/junfu1115/DANet
1.Introduction
场景分割
- 特点:基本的,有挑战性的
- 目的:将图片分割成不同的区域并理解它,这些区域与语义类别有关,包括stuff(sky、road、grass)和不连续的对象(person、car、bocycle)
- 应用:自动驾驶、机器视觉、图像编辑
- 实现要求:区分混淆的类别、考虑不同外观的对象 ————>> 场景分割
- 结论(提出问题):增强像素级识别特征表示的判别能力很有必要。
- 发展历史(解决问题):FCNs
方法一: utilize the multi-scale context fusion:
文献列举+指出问题( Although the context fusion helps to capture different scales objects, it can not leverage the relationship between objects or stuff in a global view, which is also essential to scene segmentation. )
方法二: employs recurrent neural networks to exploit long-range dependencies
文献列举+指出问题( these methods capture the global relationship implicitly with recurrent neural networks, whose effectiveness reliesheavilyonthelearningoutcomeofthelong-termmemorization. )
提出DNNet(解决问题):总体(引入 self-attention mechanism)+具体(position attention module+ channel attention module+融合)
- DNNet的优势:处理复杂多样的场景时更加有效灵活,如图1:
first:第一行中的一些人和交通灯由于光照和视野的影响,不明显或不完整。如果探索简单的上下文嵌入,那么主要的显眼目标的上下文将会影响不明显的对象标签。 相反,attention 模块选性的聚合了不显眼目标的相似特征以增强他们的特征表达,避免了显眼目标的影响。
second:car和person的大小不同,辨认这种不同大小的目标需要不同尺度上的上下文信息。也即是:平等的对待不同尺度上的特征以表示相同的语义。我们带有注意机制的model目标仅在于:从全局视角上,自适应性的聚合任意尺寸的相似特征。这可以在某种程度上解决上述问题。
third:我们明确的考虑空间和位置之间的关系,使得场景理解从long-range 依赖中获益。
- 主要贡献
1、DANet的提出:提出带注意机制的DANet,增强了场景分割特征表示的判别能力;
2、两个模块:位置注意模块用来学习特征的空间依赖性,通道注意模块用来模拟通道依赖性。对局部特征模拟大量的上下文依赖显著的提高了分割结果。
3、测试:在三个流行的基准测试中获得了最新的结果,Cityscapes、PASCAL Context、COCO Stuff。
2.Related Work
- Semantic Segmentation. 基于FCNs的方法在语义分割方面取得了很大进展。以下几种模型的变体以增强上下文融合。
first:Deeplabv2、v3 采用带孔的金字塔池化来嵌入上下文信息,由不同扩张率的并行扩张卷积组成。
PSPnet 金字塔池化模块来收集有效的上下文先验,包括不同尺寸的信息。
编解码器结构 融合中高级语义特征,来获得不同尺寸的上下文。
second:学习局部特征的上下文依赖关系有助于特征表达。
DAG-RNN 利用循环神经网络建立有向无环图模型(??),以获取丰富的上下文依赖关系。
PSANet 用卷积层和空间维度的相关位置信息 来获取像素间的关系。
OCNet 带ASPP的自我注意机制 来挖掘上下文依赖关系。
EncNet 引入通道注意机制 来获取全局上下文。
- Self-attention Modules. 注意模块对long-range 依赖关系建立模型,被广泛应用在很多任务中。
[1]中首先提出自我注意机制来获取输入的全局依赖,并应用在机器翻译中。同时,attention module也逐渐应用在图像视觉领域。
[29]引入自我注意机制来学习更好的图像生成器。
[23] 与自我关注模块有关,主要探讨视频和图像在时空维度上的非本地操作的有效性。
- 与前者不同,我们将自我注意机制推广到场景分割任务中。精心设计了两种注意模块来获取丰富的上下文关系,以便用类内紧凑性实现更好的特征表达。 综合实验结果验证了我们提出的方法的有效性。
3.Dual Attention Network
3.1.Overview
-
<