Abstract
- 本文通过基于自注意机制的丰富上下文依赖关系的捕获来解决场景分割任务。与以往通过多尺度特征融合捕获上下文的工作不同,我们提出了一种双关注网络(DANET)来自适应地将局部特征与其全局依赖性集成。
- 我们在扩展的FCN之上附加了两种类型的注意模块,分别对空间维度和通道维度的语义依赖性进行建模。
- 位置注意模块通过所有位置的特征加权和选择性地聚合每个位置的特征。无论距离如何,相似的特征都会相互关联。
- 信道注意模块通过在所有信道图中集成相关特征,选择性地强调相互依赖的信道图。
Introduction
- 为了有效地完成场景分割的任务,我们需要区分一些混淆的类别,并考虑不同外观的对象。最近,提出了基于全卷积网络(fcns)的最新方法来解决上述问题。
- 一种方法是利用多尺度的上下文融合。一些工作通过组合由不同的扩展卷积和池操作生成的特征映射聚合多尺度上下文。一些工作通过使用分解结构扩大内核大小或在网络顶部引入有效的编码层来捕获更丰富的全局上下文信息。尽管上下文融合有助于捕获不同比例的对象,但它不能利用全局视图中对象或内容之间的关系。这对于场景分割也是必不可少的。
- 另一种方法利用循环神经网络来利用长距离依赖性,从而提高场景分割的准确性。提出了一种基于二维LSTM网络的标签复杂空间依赖性捕获方法。这项工作建立了一个具有有向无环图的递归神经网络,以捕获对局部特征的丰富的上下文依赖性。然而,这些方法隐式地捕捉了与循环神经网络的整体关系,其有效性在很大程度上依赖于长期记忆的学习结果。
- 为了解决上述问题,我们提出了一种新的自然场景图像分割框架,称为双注意网络(DANET)。它引