Dual Attention Network for Scene Segmentation
摘要
在本文中,我们通过基于自注意力机制捕获丰富的上下文相关性来解决场景分割任务。与以前的通过多尺度特征融合捕获上下文的工作不同,我们提出了双重注意力网络(DANet),以自适应地将局部特征与其全局依赖性相结合。特别, 我们在扩张的FCN之上附加了两种类型的注意力模块,分别对空间和通道维度的语义相互依赖性进行建模。位置注意模块通过所有位置上的特征的加权和选择性地聚合每个位置上的特征。相似的特征将彼此相关,而与它们之间的距离无关。同时,通道注意力模块通过以下方式有选择地强调相互依存的通道图:整合所有通道图之间的关联特征。我们将两个注意力模块的输出求和,以进一步改善特征表示,这有助于更精确的分割结果。我们在三个具有挑战性的场景分割数据集(即Cityscapes,PASCAL Context和COCO Stuff数据集)上实现了最新的分割性能。在Cityscapes测试集上平均IoU达到81.5%。代码地址https://github.com/junfu1115/DANet/
1.简介
场景分割是一个基本且具有挑战性的问题,其目标是将场景图像分割并解析为与语义类别(例如,东西(例如,天空,道路,草地)和离散对象(例如,人,汽车, 自行车)。其应用如自动驾驶,机器感知和图像编辑。为了有效地完成场景分割的任务,我们需要区分一些令人困惑的类别,并考虑具有不同外观的对象。例如,“田野”和“草丛”的区域通常是无法区分的,“汽车”的物体通常可能会受到比例尺,遮挡和照明的影响。因此,有必要增强用于像素级识别的特征表示的判别能力。
近来,FCNs被用于解决上面问题。一种方法上使用多尺度上下文融合。例如,[3,4,30]通过聚合特征图得到多尺度融合。[15,28]通过扩大卷积核丰富全局信息。另外,编码-解码结构用于融合中,高层级语义特征。尽管上下文融合有助于捕捉不同尺度特征,但无法利用全局视图中的对象或事物之间的关系,这对于场景分割也是必不可少的。另一种方法是使用递归神经网络来利用远程依赖关系,从而提高场景分割的准确性。基于2D LSTM[1]用于捕捉复杂空间依赖。[18]建立循环神经网络捕捉局部特征。但是,这些方法隐含了与递归神经网络的全局关系,后者的有效性在很大程度上取决于长期记忆的学习成果。为了解决上面问题,我们提出DANet自动场景分割,如图2所示。它在空间和通道维度分别使用自注意力。特别的,我们在FCN的两个平行分支使用注意力模块。一个是位置注意力,一个是通道注意力。对于位置注意力模块,我们使用自注意力机制捕捉空间依赖;对于某个位置上的特征,可通过使用加权求和在所有位置上聚合特征来进行更新,其中权重由对应两个位置之间的特征相似性决定。即,具有相似特征的任何两个位置都可以相互促进,而无论它们在空间维度上的距离如何。对于通道注意模块,我们使用类似的自注意机制来捕获任意两个通道图之间的通道依存关系,并使用所有通道图的加权总和更新每个通道图。最后,将这两个注意模块的输出融合在一起,以进一步增强特征表示。
我们的方法比之前方法更加高效和灵活。以如图1街道场景为例,首先,由于光线和视野,第一行中的某些“人”和“交通灯”是不明显或不完整的物体。如果希望进行简单的上下文嵌入,则来自主要显着对象(