【DCANet2022】:DCANet: Differential Convolution Attention Network for RGB-D Semantic Segmentation

DCANet: Differential Convolution Attention Network for RGB-D Semantic Segmentation

DCANet:RGB-D语义分割的差分卷积注意网络


arXiv:2210.06747v1 [eess.IV] 13 Oct 2022
文章地址:https://arxiv.org/abs/2210.06747
代码地址:


摘要

  过去几年,将RGB图像和相应的深度图像在语义分割中进行组合已经被证明是有效的。现有的RGB-D模态融合方法要么缺乏非线性特征融合能力,要么平等地处理两种模态图像,无论其固有的分布差距或信息丢失。我们发现,由于它们的局部深度连续性,深度地图适合提供对象的内在细粒度模式,而RGB图像则有效地提供全局视角。基于此,我们提出了一个像素差分卷积注意力(DCA)模块,以考虑深度数据的几何信息和局部范围相关性。此外,我们将DCA扩展到集成差分卷积注意力(EDCA),其中传播远程上下文依赖性并无缝整合RGB数据的空间分布。 DCA和EDCA通过像素差异动态调整卷积权重,以实现自适应的本地和长程调整。我们提出了一个带有DCA和EDCA的双分支网络,称为差分卷积网络(DCANet),用于融合两种模式数据的本地和全局信息。因此,突出了RGB和深度数据的各自优势。我们的DCANet在两个具有挑战性的基准数据集NYUDv2和SUN-RGBD上表现出了最新的最佳性能。


1导言

  语义分割是计算机视觉中的一项重要任务,它可以推断出场景中每个像素的语义标签。随着Kinect、Xition等3D传感器的广泛使用,可以很容易地获取物体的三维几何信息,促进了RGB-D语义分割的发展。RGB- D图像在对真实几何信息进行编码后,克服了二维图像仅在投影图像空间中显示光度外观属性的挑战,丰富了RGB图像的表示形式。RGB和深度图像的信息以完全不同的形式呈现。特别是,RGB图像捕获了投影图像空间中的光度外观特性,而深度图可以为局部几何的外观线索提供丰富的补充信息。因此,增强和融合RGB数据和深度数据在语义分割任务中的优势至关重要。

图1。RGB和深度数据之间的内在差异和DCANet的照明。椅子和桌子在RGB图像的2D外观上是不可分割的,但在深度图中根据几何信息很容易区分。在DCANet中,我们利用DCA捕捉深度图的局部范围几何一致性,利用EDCA关注RGB的长程依赖性。

   语义分割是计算机视觉中的重要任务,可以推断出场景中每个像素的语义标签。随着Kinect、Xition等3D传感器的广泛使用,可以轻松获取物体的三维几何信息以促进RGB-D语义分割的发展。经过对真实世界几何信息进行编码之后,RGB-D图像可以应用于克服2D仅在投影图像空间中显示光度外观属性的挑战,并丰富RGB图像的表示。RGB和深度图像的信息以完全不同的形式呈现出来。特别地,RGB图像捕获了投影图像空间中的光度外观属性,而深度图可以产生丰富的补充信息,用于局部几何的外观线索。因此,在语义分割任务中增强和融合RGB和深度数据的优势至关重要。

  在实际情况下,存在太多复杂外观的具有挑战性的图像。以图1为例,根据RGB图像无法区分椅子和桌子,但可以根据深度轻松地区分它们。显然,仅使用2D信息(例如形状和颜色)无法将桌子与椅子分开。然而,在深度图像中,存在局部一致性信息,该信息不会受到相似的混淆外观的限制。事实上,与仅使用RGB图像相比,深度数据提供更为精细的局部几何差异信息,从理论上讲可导致更好的分割性能。相反地,如在经典的自注意力机制[54,60,63]中验证的那样,RGB数据关注更多全局信息。

  现有的方法[3,9 - 11,20,24,26,29,36,39]试图通过引入新的卷积层和池化层、注意机制、降噪模块等来融合RGB-D数据,以获得更好的语义分割结果。这些方法忽略了RGB和深度特征之间的内在差异,而是使用同构运算符。两类数据的权重被同等对待,从而对分割做出相同的贡献,这显然是不合适的。此外,RGB图像和深度图的信息主要来自组合的最终通道,没有考虑不同通道中的具体语义信息
  现有方法[3、9-11、20、24、26、29、36、39]试图通过引入新的卷积层和池化层、注意机制、噪声抵消模块等将RGB-D数据融合,以获得更好的语义分割结果。这些方法忽略了RGB和深度特征之间的固有差异,而使用同质操作符。两种类型数据的权重受到平等对待,以使其对分割做出相同的贡献,这显然是不合适的。此外,RGB图像和深度图的信息主要来自于组合后的最终通道,其中不考虑不同通道的特定语义信息

  
为解决上述问题,我们提出了两个注意机制,即差分卷积注意力(DCA)和集成差分卷积注意力(EDCA),以改进RGB和深度数据在语义分割中的跨模态能力。DCA通过使用像素差分来动态增强标准卷积,并迫使具有相似差异的像素贡献更多的输出中心核的权重。DCA结合了局部几何信息,提高了深度数据的本地范围适应性。EDCA吸收了DCA的动态卷积优势,以传播长程上下文依赖关系,并无缝整合RGB数据的空间分布。同时,DCA和EDCA都避免了在通道维度中忽略适应性的常见缺点。我们的主要贡献如下:

  • 我们提出了一个DCA模块,它通过在本地区域考虑像素的微小差异,动态增强标准卷积并促进自适应,从而融合了局部复杂的几何模式。
  • 我们将DCA扩展到EDCA,以实现RGB数据的长程相关性,并无缝整合其空间分布。
  • 基于DCA和EDCA,我们提出了一个DCANet,在NYUDv2 [47]和SUN-RGBD [48]数据集上实现了最新的最佳性能。我们还提供了详细的设计选择和模型变体分析

2.相关工作


2.1. RGB-D语义分割

  在附加深度信息的帮助下,两种互补模态的结合实现了出色的语义分割性能[3,9,17,27,28,45,47]。许多研究仅是将RGB和深度图像的特征进行简单级联以增强每个像素的语义信息[45,47]。融合方法可以分为三个类型:早期融合、中期融合和晚期融合。Cao等人 [3] 在早期阶段通过将RGB和深度数据分解为深度特征中的形状和基础组件来连接这两者。然而,由于这两种模态的复杂性,单一模型无法很好地拟合它们的数据差异。Jiao 等人[27] 对完整考虑RGB和深度信息设计了两个编码器-解码器模块,其中两种模态在晚期被融合。在此方法中,RGB和深度数据不同特征之间的交互是不足的,因为各自丰富的信息逐渐被压缩甚至丢失了。经过克服早期阶段和晚期阶段融合策略的缺点后,中期阶段融合通过将这两种不同数据模态的中间信息进行融合来更好地执行。Gupta等人[18]在中期阶段将深度图像的地心嵌入与深度图像拼接以为最终的语义信息作出贡献。值得注意的是,在中期阶段融合策略中,分布差距被减小,并且多模态特征具有充分的交互。因此,近期的研究主要集中在中期阶段融合。Chen等人[9]提出了一个空间信息引导卷积,生成具有不同采样分布的卷积核,以增强网络的空间适应性和感受域调节。Chen等人 [10]将数据中对两种模态的最具信息交叉性质统一到一个有效的表示中。Lin等人[29]根据几何信息将图像分成多个分支,其中每个网络的分支都可以从新的角度去推断取得相关的相似特征。

我们的方法应用了两个分支,每个分支都专注于提取模态特定的特征,例如从RGB图像中提取的颜色和纹理以及从深度图像中提取的几何、独立于照明的特征。具体而言,类似于中期阶段融合,由DCA生成的注意深度特征在编码器的每个分辨率阶段与EDCA中的关注RGB相融合。深度数据和RGB数据侧重于局部和远距离信息。


2.2. 注意模块

  注意力模块之所以受到欢迎的原因是它们几乎可以应用于网络的任何阶段来建模全局特征依赖性。Woo等人 [56] 通过卷积块注意力模块自适应地在空间和通道维度上精细化信息。灵感来源于自注意力网络的自注意相关模块将计算机视觉[44,50,61]中广泛集中的与自注意类似的模块扩展到一种更一般类型的非本地过滤方法,以捕获长距离依赖性[54]。 Fu等人[15]提出了两个注意力模块来捕获空间和通道之间的相互依赖关系。Cao等人[4] 基于无需查询的公式提出了一种轻量级非本地网络用于全局上下文建模,Zhu等人[63]在考虑到长程依赖性并减少冗余参数的同时,集成了不同级别的特征。

我们的方法集成了DCA和EDCA,分别为深度数据和RGB数据建立了不同点之间的联系。DCA模块支持相同的对象在深度数据的局部范围内具有更大的深度相似性,并使用像素差异来强制几何一致的像素对相应输出产生更多贡献。EDCA模块则为RGB数据启用了长程依赖项。


3 方法

  RGB-D语义分割需要融合RGB和深度两种本质不同的模态,其中RGB数据具有长程上下文依赖性和全局空间一致性,而深度数据包含本地几何一致性。应该分别考虑这两种模态的固有特点,以识别它们各自的优势,并增强两种特征表示。为此,我们提出了两个注意力模块:DCA和EDCA,分别捕捉深度和RGB数据的固有特征。在本节中,我们详细阐述了所提出的DCA和EDCA的细节,随后描述了所提出的差分卷积注意网络(DCANet)。


3.1. 差分卷积注意

  注意机制可以被视为一种自适应选择过程,它基于输入特征选择有区别的特征,并自动忽略噪声响应。注意机制的关键是学习不同点之间的关系,并生成一个表明不同点重要性的注意力映射。建立不同点之间关系的众所周知方法是自我注意机制,用于捕捉长距离相关性。但是,由于其固有属性,深度数据只与局部区域有关,并且长距离相关性可能会导致更多的干扰项。因此,我们通过考虑深度数据中的局部区域来探索卷积方法,建立相关性并生成注意力映射。

  给定一个特征图 F ∈ R h × w × c F∈R^{h×w×c} FRh×w×c; h 、 w 、 c h、w、c hwc分别为输入特征图的高度、宽度和通道。为简单起见,我们记 X ∈ R h × w × 1 X∈R^{h×w×1} XRh×w×1为输入特征图。对于 X X X上的每一点 p ∈ R 2 p∈R^2 pR2,计算基本卷积如下::
Y ( p ) = ∑ i = 1 k × k K i ⋅ X ( p + p i ) , (1) Y(p) =\sum^{k×k}_{i=1}K_i · X(p + p_i),\tag{1} Y(p)=i=1k×kKiX(p+pi),(1)

其中 p i p_i pi枚举 p p p周围的局部位置。 K K K是大小为 k × k k×k k×k的卷积核的可学习权值(为简单起见,忽略偏差项)。

  式(1)中,香草卷积的卷积核K对于任何输入都是固定的,无法动态感知输入的变化。然而,对于深度数据,我们期望由卷积生成的注意力映射能够在学习本地区域内不同点之间的相关性的同时,动态地感知几何信息。因此,我们探究了一个像素差分项来加权香草卷积核,称为差分卷积核 K ∗ K^* K:
K i ∗ = K i ⋅ e x p ( − ∣ X ( p ) − X ( p + p i ) ∣ ) , (2) K^∗_i = K_i · exp(−|X(p) − X(p + p_i)|), \tag{2} Ki=Kiexp(X(p)X(p+pi)),(2)

K ∗ K^* K中的差项表示深度数据中的几何信息,然后正则化为(0,1),确保较大的两个点之间的差异越大,相关性越小,反之亦然。很容易理解,在一个点处的深度是局部连续的。在差异项的帮助下,差分卷积核 K ∗ K^* K不仅取决于输入特征,而且取决于卷积位置。因此,它对深度数据具有几何感知能力。使用差分卷积核 K ∗ K^* K,对于输入特征图 X ∈ R h × w × 1 X∈R^{h×w×1} XRh×w×1,差分卷积(DC)可以写成:
Y ( p ) = ∑ i = 1 k × k K i ∗ ⋅ X ( p + p i ) , (3) Y(p) =\sum^{k×k}_{i=1}K^∗_i · X(p + p_i), \tag{3} Y(p)=i=1k×kKiX(p+pi),(3)
如上所述,我们使用差分卷积核 K ∗ K^* K计算局部接受野中不同点之间的相关性,接受野大小是依据输入而定的。在我们的实验中,深度数据的接受野大小为 9 × 9 9 × 9 9×9。为了减少计算量,我们使用深度可分离卷积[12]将差分卷积分解为差分深度卷积和点卷积( 1 × 1 1×1 1×1卷积)。对于广义的输入特征图 F ∈ R h × w × c F∈R^{h×w×c} FRh×w×c,我们的DCA模块定义为:

A t t e n t i o n = C o n v 1 × 1 ( D C − D W ( F ) ) , O u t p u t = A t t e n t i o n ⊗ F \begin{align*} Attention &= Conv_{1×1}(DC-DW(F)), \\ \tag{4} Output &= Attention ⊗ F \end{align*} AttentionOutput=Conv1×1(DCDW(F)),=AttentionF(4)

在这里,Conv1×1表示1×1卷积,DC-DW表示差分深度卷积,其差分核由式(2)生成。 A t t e n t i o n ∈ R h × w × c Attention∈R^{h×w×c} AttentionRh×w×c意味着具有输入特征图F相同大小的注意力映射。注意力映射中的每个值都整合了深度图像局部范围内的几何信息,以指示每个特征的重要性。符号⊗表示逐元素乘积。DCA的完整流程如图2上方所示。

图2。以3 × 3局部网格为例,给出了DCA和EDCA的实例。

  引入差异项的卷积核可以根据输入动态地重新平衡卷积权重。而所提出的DCA模块强制使深度数据中具有更一致几何的点对相应输出产生更多贡献。总之,DCA在局部空间维度和通道维度均具有灵活性,并整合了局部范围的几何信息。值得注意的是,CNNs中通道维度的信息通常代表不同的对象[5, 43],这也对分割任务至关重要。


3.2. 集合微分卷积注意

如上所述,RGB数据具有长期的上下文依赖和全局空间一致性。虽然自注意力[54, 60, 63]是学习捕获长程相关性的实用方法,但它只能获得空间适应性,缺乏通道适应性。所提出的DCA模块在空间维度和通道维度上都具有灵活性,并考虑到适用于深度数据的局部相关性。因此,对于RGB数据,将DCA扩展到传播长距离上下文依赖关系是直观的。

最直接的方法是在DCA中使用更大的核差分深度卷积。为了以比直接应用更大的核操作更少的计算成本和参数捕获长程关系,我们将基于大内核的DC分解为差分深度卷积、差分深度膨胀卷积和点卷积,称为集合差分卷积(EDC)。借助EDC,所提出的EDCA可以写为:
F 1 = D C − D W ( F ) , F 2 = D C − D W D ( F 1 ) , A t t e n t i o n = C o n v 1 × 1 ( F 1 + F 2 ) , O u t p u t = A t t e n t i o n ⊗ F . \begin{align*} F_1 &= DC-DW(F), \\ \tag{5} F_2 &= DC-DWD(F_1), \\ Attention &= Conv_{1×1}(F_1 + F_2), \\ Output &= Attention ⊗ F. \end{align*} F1F2AttentionOutput=DCDW(F),=DCDWD(F1),=Conv1×1(F1+F2),=AttentionF.(5)

与DCA类似, F ∈ R h × w × c F∈R^{h×w×c} FRh×w×c是输入特征图。 C o n v 1 × 1 Conv_{1×1} Conv1×1表示1×1卷积,⊗表示逐元素乘积。DC-DW和DC-DWD分别表示带有差分卷积核 K ∗ K^* K的差分深度卷积和差分深度膨胀卷积。图2展示了所提出的EDCA模块。

图3。EDC中卷积策略的解释,5×5为了方便使用卷积。(a) 5×5卷积,Conv5×5。(b) 5×5膨胀卷积,DConv5×5。(c) (a)和(b)的组合,DConv5×5(Conv5×5(·))。与(a)相比,(b)有更大的感受野,但导致信息丢失。在(c)(左)中,红色虚线框是Conv5×5,它只是填补了DConv5×5的膨胀,使其近似于(c)(右)中的蓝色虚线框的大小为17 × 17。

  EDC的卷积核大小也取决于输入。在我们的实验中,DC-DW的DC卷积核大小为5×5,DC-DWD的DC卷积核大小为9×9,膨胀率为3。根据以上设置,EDC的接受野大小近似为29×29。图3 (d))展示了EDC的卷积策略,为方便起见,我们显示了5×5卷积和膨胀率为3的5×5卷积。因此,EDCA可以获得长程依赖性,同时差分项动态调整卷积权重并为RGB数据提供空间分布信息。总之,基于EDCA的空间和通道适应性,区分性特征得到增强,噪声响应得以忽略。


3.3. 理解DCA和EDCA

  在局部区域内,先前的研究已经验证了具有相同语义标签的像素具有相似的深度[29, 36, 53]。DCA将几何感知能力与基础卷积相结合,并生成一个指示深度数据中每个点重要性的注意力映射。EDCA吸收了DCA动态卷积的优点,以传播长程上下文依赖关系,并无缝地融入RGB数据的空间分布。

如表1所示,我们提出的DCA和EDCA结合了卷积和自注意力的优点。通过用像素差分项增强卷积核,DCA以局部接受野捕获几何信息。相比于基础卷积,DCA的可学习权重根据几何变化进行调整。基于此,在我们分解的大核心的帮助下,EDCA被扩展以进一步捕获满足接受野内的细微像素差异。

表1。卷积、自我注意、DCA和EDCA的理想特征。值得注意的是,DCA和EDCA分别应用于深度和RGB数据。
PropertiesConvolutionself-attentionDCAEDCA
Geometry Structure
Local-range dependence
Long-range dependence
Spatial adaptability
Channel adaptability

3.4. DCANet架构

图4。我们的网络概述。该网络由两个ResNet-101编码器组成,其中DCA和EDCA分别插入到CNNs中,作为每个ResNet-101编码器的RGB分支和Depth分支的每个块的注意模块。我们采用原始的DeepLabv3+解码器。在训练过程中,每对特征映射被注意和融合块融合,并传播到编码器的下一阶段进行进一步的特征转换。

  DCANet用于RGB-D语义分割的架构如图4所示。我们采用DeepLabv3+ [8]作为RGB-D语义分割任务的基线,其中编码器使用ResNet-101 [19],并保留DeepLabv3+的原始解码器。我们在DCANet中应用了一种双分支结构,分别用于RGB和深度数据。

在ResNet-101的四个分辨率阶段中,通过注意力和融合块将深度特征融合到RGB编码器中。具体而言,首先将两种模式的通道维度压缩到1/8进行降维。接下来,同时对深度数据进行DCA和RGB数据进行EDCA。第三步,卷积输出的DCA和EDCA以匹配原始特征的维度,并分别与原始特征进行逐元素求和。最后,通过逐元素求和将提取补充几何信息的深度数据集成到RGB数据中,以获得更好的特征表示。注意力和融合块的输出如下:
D e p t h o u t = W 2 ( D C A ( W 1 ( D e p t h i n ) ) ) + D e p t h i n , R G B o u t = W 2 ′ ( E D C A ( W 1 ′ ( R G B i n ) ) ) + R G B i n , R G B o u t = R G B o u t + D e p t h o u t \begin{align*} Depth_{out} &= W_2 (DCA(W_1(Depth_{in}))) + Depth_{in},\\ \tag{6} RGB_{out} &= W'_2 (EDCA(W'_1(RGB_{in}))) + RGB_{in},\\ RGB_{out }&= RGB_{out} + Depth_{out} \end{align*} DepthoutRGBoutRGBout=W2(DCA(W1(Depthin)))+Depthin,=W2(EDCA(W1(RGBin)))+RGBin,=RGBout+Depthout(6)

其中 W 1 ( W 1 ′ ) W_1 (W'_1) W1(W1) W 2 ( W 2 ′ ) W_2 (W'_2) W2(W2))分别表示用于压缩和恢复通道的 1 × 1 1×1 1×1卷积。值得注意的是,融合输出的最后一个 R G B RGB RGB特征块被传播到分割解码器中。


4. 试验


4.1. 数据集和指标

我们在两个流行的RGB-D数据集上进行评估:

NYUDv2 [47]:NYUDv2包含1449个带有像素级标签的RGB-D图像。我们遵循40个类别的设置以及795个训练图像和654个测试图像的标准划分。

SUN-RGBD [48]: 该数据集有37种对象类别,包含10335个RGB-D图像,其中5285个作为训练集,5050个作为测试集。

我们使用两个常见的指标来评估结果:像素精度(Pixel Acc.)和平均交并比(mIoU)。


4.2. 实现细节

  我们使用预训练的ImageNet [46]上的扩张ResNet-101 [19]作为特征提取的骨干网络,并在ResNet-101的最后一个阶段添加另一个辅助损失。我们保持DeepLabv3+ [8]的所有其他设置相同。我们使用PyTorch深度学习框架[40]实现我们的网络,并使用两个Nvidia Tesla V100 GPU进行所有模型的训练。我们采用“poly”策略[34],初始学习率为0.008,裁剪尺寸为480×480,批量大小为8,数据增强方法(即随机缩放,随机裁剪和左右翻转)在训练期间进行微调批归一化参数[25]。对于优化器,我们使用具有0.9的动量和0.0001的权重衰减的SGD。此外,我们将NYUDv2数据集训练500个epoch,将SUN-RGBD数据集训练200个epoch。为了与其他方法进行公平比较,在推断过程中采用了单尺度和多尺度测试策略。除非另有说明,否则实验均为单尺度测试,“∗”在表格中表示多尺度策略。


4.3. 消融实验

  DCA的DC内核大小。我们的DCA模块采用9×9、膨胀1的DC核来捕获深度数据的局部几何信息。我们试图在深度数据上尝试其他DC核大小,并且没有对RGB数据执行任何操作,以确认应用9x9 DC核的有效性。Tab.2中的结果证明,较大的DC核大小由于深度数据的局部几何性质而不带来明显的性能提升,并且我们的设置是适用的。

表2。不同DC内核大小的DCA在NYUDv2测试集上的结果。
DC kernel sizePixel Acc.mIoU
3 × 375.349.1
5 × 575.749.7
7 × 776.050.1
9 × 976.550.9
11 × 1176.450.9

  DCA和EDCA模块的有效性。我们在NYUDv2数据集上进行削弱研究,以证明DCA和EDCA模块的必要性。我们进行两个基线DeepLabv3+(ResNet-101)的平行实验。如表3所示,这两种注意力模块显著提高了性能。与基线相比,仅在深度数据上应用DCA可将mIoU提高3.5%,而仅在RGB数据上使用EDCA可带来3.9%的改进。当我们同时应用两个模块时,性能进一步提高到77.3%(像素精度)和52.1%(mIoU)。结果表明,这两个模块对性能提升至关重要,并且在组合时效果最佳。

表3。NYUDv2测试机上DCA和EDCA模块的烧蚀研究。
MethodDCAEDCAPixel Acc.%mIoU%
Baseline75.147.4
Model176.550.9
Model276.951.3
DCANet77.352.1

  EDCA与Self-Attention。非局部神经网络等自我注意机制是捕获长程依赖性的知名方法。我们将自我注意性能与我们提出的EDCA进行比较。如表4所示,EDCA在mIoU和像素精度方面优于自我注意性能分别提高2%和0.8%。尽管自我注意机制是空间自适应的,但不具备与EDCA同时通道自适应的特点,而通道自适应在分割任务中起着至关重要的作用。此外,我们还验证了EDCA中差分项的有效性,通过去除EDCA中的差分项进行实验,称为EDCA-。如表4所示,差分项在mIoU中带来了1.2%的性能提升。EDCA中的此项为RGB数据提供长程空间分布信息,并在动态感知场景时发挥作用。

表4。EDCA在NYUDv2测试机上与自我注意[54]和EDCA-比较的优越性。EDCA-表示无微分项的EDCA。这三个模块都是针对RGB数据的,用于捕获远程依赖,不对深度数据进行操作
Self-AttentionEDCA-EDCAPixel Acc.%mIoU%
76.149.3
76.350.1
76.951.3

  DCA和EDCA的适用性。在DCANet中,我们对深度数据应用DCA获取局部距离相关性和几何信息,对RGB数据应用EDCA获取远程相关性和空间分布信息。我们还通过对深度数据应用EDCA和对RGB应用DCA来验证这两个模块的适用性。如表5所示,在深度上使用DCA比EDCA提高mIoU 1.7%,在RGB上使用EDCA比DCA提高mIoU 1.6%。结果表明,DCA和EDCA分别适用于Depth和RGB数据。这也解释了深度图由于局部深度连续性,更适合提供物体的内在几何信息,而RGB图像有效地提供了全局视图。

表5所示。NYUDv2测试集的DCA和EDCA的适用性。注:我们提出的方法对深度使用DCA,对RGB数据使用EDCA。
RGBDepthPixel Acc.mIoU
EDCA76.951.3
DCA76.249.7
DCA76.550.9
EDCA76.149.2

4.4. 不同架构的实验

  我们提出的DCA和EDCA是RGB-D语义分割的通用模块,可以很容易地插入cnn作为语义分割的注意模块。我们的方法还针对几种具有代表性的语义分割架构进行了评估:Deeplabv3+[8]、Deeplabv3[7]、PSPNet[33]和FPN[62],这些架构在NYUDv2数据集上具有不同的主干(ResNet-50、ResNet-101[19]),以验证其可泛化性。如表6所示,在所有设置下,我们的方法都以理想的幅度优于基线,证明了我们方法的泛化能力。

表6所示。NYUDv2测试集上不同基线方法的单尺度测试性能比较。


4.5. 与先进的比较

  NYUDv2。对比结果见表7。我们的方法取得了领先的性能。与这些方法相比,我们的模型更关注RGB和深度数据内部的可变性,并应用不同的模块来增强特征表示。D-CNN[53]提出的深度感知卷积与我们的方法更相似。为了便于比较,在单次测试下,D-CNN的mIoU为48.4,而我们的模型的评分为52.1,提高了3.7%。这是因为我们使用深度卷积来生成特征图,而使用DCA和EDCA来生成指示不同点重要性的注意图。此外,深度感知卷积只比较深度图中局部区域的相似性,而忽略了RGB数据的长程依赖性和全局空间一致性,这些都可以被EDCA捕获。

表7所示。在NYUDv2测试集上与最先进的方法进行性能比较。' * '表示多尺度测试。
MethodPixel Acc.(%)mIoU(%)
LSD-GF [11]71.945.9
D-CNN [53]-48.4
MMAF-Net [14]72.244.8
ACNet [23-48.3
ShapeConv [3]75.850.2
RDF [39]*76.050.1
M2.5D [58]*76.950.9
SGNet [9]*76.851.1
SA-Gate [10]*77.952.4
InverseForm [2]*78.153.1
ShapeConv [3]*76.451.3
DCANet77.352.1
DCANet*78.253.3

  SUN RGB-D表8显示了在SUN RGBD数据集上的测试结果。与其他最先进的方法相比,DCANet在单尺度和多尺度测试下都取得了最好的结果。

表8所示。在SUN RGB-D测试机上与现有方法的性能比较。' * '表示多尺度测试。
MethodPixel Acc.(%)mIoU(%)
3DGNN [42]-44.1
D-CNN [53]-42.0
MMAF-Net [14]81.047.0
SGNet [9]81.047.5
ShapeConv [3]82.047.6
ACNet [23]-48.1
3DGNN [42]*-45.9
CRF [29]*-48.1
RDF [39]*81.547.7
SA-Gate [10]*82.549.4
SGNet [9]*82.047.6
ShapeConv [3]*82.248.6
DCANet82.248.1
DCANet*82.649.6

5. DCANet的可视化

图5。场景语义分割的视觉比较。左边和右边分别是在NYUDv2数据集和SUN RGB-D数据集上的测试结果。

  图5显示了NYUDv2和SUN RGB-D数据集的定性结果。结果表明,DCA和EDCA模块可以很好地增强深度图像的局部几何信息和RGB图像的全局依赖性。正如右边第二行所示,我们的DCANet成功地识别了整个灯,包括它的支架,而在强光条件下它甚至无法识别。这是因为我们的模型有效地结合了两种模态数据的优点。具体来说,当物体的二维信息不可靠时,模型会合理利用相应的几何信息。在左侧第二行中可以找到类似的例子。

图6。响应图的可视化。左侧第二列为基线生成的特征映射;第三列由EDCA生成(右侧对应项由DCA生成);第四列显示了经过改进的特征映射。

  为了验证我们的模型的DCA和EDCA的有效性,我们应用了基线模型和DCANet的响应映射。如图6所示,经过改进的特征图证明了我们的方法在捕获像素级微妙信息(边缘区域)时的分割有效性,在这些信息中像素差分卷积很重要。RGB和深度数据的注意图还说明,DCA为深度数据提供了内在的细粒度局部几何差异信息,而EDCA有效地为RGB数据提供了全局视图。


6 结论

  考虑到RGB和深度数据的内在差异,我们通过引入DCA和EDCA两个即插即用模块,提出了一种先进的微分卷积注意网络。DCA动态感知深度数据中局部区域的细微几何信息。EDCA吸收了DCA动态卷积的优点,传播了远程上下文依赖性,无缝地融合了RGB数据的空间分布。利用DCA和EDCA生成的注意映射增强特征表示能力,进一步提高模型性能。


References

[1] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE transactions on pattern analysis and machine intelligence, 39(12):2481–2495, 2017.
[2] Shubhankar Borse, Ying Wang, Yizhe Zhang, and Fatih Porikli. Inverseform: A loss function for structured boundary-aware segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5901–5911, 2021. 7
[3] Jinming Cao, Hanchao Leng, Dani Lischinski, Daniel Cohen-Or, Changhe Tu, and Y angyan Li. Shapeconv:Shape-aware convolutional layer for indoor rgbd semantic segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7088–7097, 2021. 2, 7
[4] Y ue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, and Han Hu. Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops, pages 0–0, 2019. 3
[5] Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie,Jian Shao, Wei Liu, and Tat-Seng Chua. Sca-cnn:Spatial and channel-wise attention in convolutional networks for image captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5659–5667, 2017. 4
[6] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Y uille. Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.IEEE transactions on pattern analysis and machine intelligence, 40(4):834–848, 2017.
[7] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587, 2017. 7
[8] Liang-Chieh Chen, Y ukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the European conference on computer vision (ECCV), pages 801–818,2018. 5, 7
[9] Lin-Zhuo Chen, Zheng Lin, Ziqin Wang, Y ong-Liang Y ang, and Ming-Ming Cheng. Spatial information guided convolution for real-time rgbd semantic segmentation. IEEE Transactions on Image Processing,30:2313–2324, 2021. 2, 7
[10] Xiaokang Chen, Kwan-Y ee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, and Gang Zeng. Bidirectional cross-modality feature propagation with separation-and-aggregation gate for rgb-d semantic segmentation. In European Conference on Computer Vision, pages 561–577. Springer, 2020. 2, 7
[11] Y anhua Cheng, Rui Cai, Zhiwei Li, Xin Zhao, and Kaiqi Huang. Locality-sensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3029–3037, 2017. 2, 7
[12] Franc ¸ois Chollet. Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1251–1258, 2017. 4
[13] Henghui Ding, Xudong Jiang, Bing Shuai, Ai Qun Liu, and Gang Wang. Semantic segmentation with context encoding and multi-path decoding. IEEE Transactions on Image Processing, 29:3520–3533,2020.
[14] Fahimeh Fooladgar and Shohreh Kasaei. Multimodal attention-based fusion model for semantic segmentation of rgb-depth images. arXiv preprint arXiv:1912.11691, 2019. 7
[15] Jun Fu, Jing Liu, Haijie Tian, Y ong Li, Y ongjun Bao,Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 3146–3154, 2019. 3
[16] Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu,Ming-Ming Cheng, and Shi-Min Hu. Visual attention network. arXiv preprint arXiv:2202.09741, 2022. 3
[17] Saurabh Gupta, Pablo Arbelaez, and Jitendra Malik. Perceptual organization and recognition of indoor scenes from rgb-d images. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 564–571, 2013. 2
[18] Saurabh Gupta, Ross Girshick, Pablo Arbeláez, and Jitendra Malik. Learning rich features from rgb-d images for object detection and segmentation. In European conference on computer vision, pages 345–360.Springer, 2014. 2
[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.5, 7
[20] Y ang He, Wei-Chen Chiu, Margret Keuper, and Mario Fritz. Std2p: Rgbd semantic segmentation using spatio-temporal data-driven pooling. In Proceedings of the IEEE Conference on Computer Vision and Patern Recognition, pages 4837–4846, 2017. 2
[21] Jie Hu, Li Shen, Samuel Albanie, Gang Sun, and Andrea V edaldi. Gather-excite: Exploiting feature context in convolutional neural networks. Advances in neural information processing systems, 31, 2018.
[22] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition,pages 7132–7141, 2018.
[23] Xinxin Hu, Kailun Y ang, Lei Fei, and Kaiwei Wang.Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation. In 2019 IEEE International Conference on Image Processing (ICIP), pages 1440–1444. IEEE, 2019. 7
[24] Farzad Husain, Hannes Schulz, Babette Dellen,Carme Torras, and Sven Behnke. Combining semantic and geometric features for object class segmentation of indoor scenes. IEEE Robotics and Automation Letters, 2(1):49–55, 2016. 2
[25] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning, pages 448–456. PMLR, 2015. 5
[26] Jindong Jiang, Lunan Zheng, Fei Luo, and Zhijun Zhang. Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation. arXiv preprint arXiv:1806.01054, 2018. 2
[27] Jianbo Jiao, Y unchao Wei, Zequn Jie, Honghui Shi,Rynson WH Lau, and Thomas S Huang. Geometry-aware distillation for indoor semantic segmentation.In Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition, pages 2869–2878, 2019. 2
[28] Salman H Khan, Mohammed Bennamoun, Ferdous Sohel, Roberto Togneri, and Imran Naseem. Integrating geometrical context for semantic labeling of indoor scenes using rgbd images. International Journal of Computer Vision, 117(1):1–20, 2016. 2
[29] Di Lin, Guangyong Chen, Daniel Cohen-Or, PhengAnn Heng, and Hui Huang. Cascaded feature network for semantic segmentation of rgb-d images. In Proceedings of the IEEE international conference on computer vision, pages 1311–1319, 2017. 2, 5, 7
[30] Guosheng Lin, Anton Milan, Chunhua Shen, and Ian Reid. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1925–1934, 2017.
[31] Guosheng Lin, Chunhua Shen, Anton V an Den Hengel, and Ian Reid. Efficient piecewise training of deep structured models for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3194–3203, 2016.
[32] Min Lin, Qiang Chen, and Shuicheng Y an. Network in network. arXiv preprint arXiv:1312.4400, 2013.
[33] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117–2125, 2017. 7
[34] Wei Liu, Andrew Rabinovich, and Alexander C Berg.Parsenet: Looking wider to see better. arXiv preprint arXiv:1506.04579, 2015. 5
[35] Jonathan Long, Evan Shelhamer, and Trevor Darrell.Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431–3440, 2015.
[36] Haiyang Mei, Bo Dong, Wen Dong, Pieter Peers, Xin Y ang, Qiang Zhang, and Xiaopeng Wei. Depth-aware mirror segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3044–3053, 2021. 2, 5
[37] Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In Icml,2010.
[38] Timo Ojala, Matti Pietikainen, and Topi Maenpaa.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on pattern analysis and machine intelligence, 24(7):971–987, 2002.
[39] Seong-Jin Park, Ki-Sang Hong, and Seungyong Lee.Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation. In Proceedings of the IEEE international conference on computer vision,pages 4980–4989, 2017. 2, 7
[40] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, highperformance deep learning library. Advances in neural information processing systems, 32, 2019. 5
[41] Lu Qi, Li Jiang, Shu Liu, Xiaoyong Shen, and Jiaya Jia. Amodal instance segmentation with kins dataset.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3014–3023, 2019.
[42] Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, and Raquel Urtasun. 3d graph neural networks for rgbd semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision, pages 5199–5208, 2017. 7
[43] Xu Qin, Zhilin Wang, Y uanchao Bai, Xiaodong Xie,and Huizhu Jia. Ffa-net: Feature fusion attention network for single image dehazing. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 11908–11915, 2020. 4
[44] Prajit Ramachandran, Niki Parmar, Ashish V aswani,Irwan Bello, Anselm Levskaya, and Jon Shlens.Stand-alone self-attention in vision models. Advances in Neural Information Processing Systems, 32, 2019.2
[45] Xiaofeng Ren, Liefeng Bo, and Dieter Fox. Rgb-(d)scene labeling: Features and algorithms. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 2759–2766. IEEE, 2012. 2
[46] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang,Andrej Karpathy, Aditya Khosla, Michael Bernstein,et al. Imagenet large scale visual recognition challenge. International journal of computer vision,115(3):211–252, 2015. 5
[47] Nathan Silberman, Derek Hoiem, Pushmeet Kohli,and Rob Fergus. Indoor segmentation and support inference from rgbd images. In European conference on computer vision, pages 746–760. Springer, 2012. 2, 5
[48] Shuran Song, Samuel P Lichtenberg, and Jianxiong Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 567–576, 2015. 2, 5
[49] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky,Ilya Sutskever, and Ruslan Salakhutdinov. Dropout:a simple way to prevent neural networks from overfitting. The journal of machine learning research,15(1):1929–1958, 2014.
[50] Ashish V aswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar, Blake Hechtman, and Jonathon Shlens. Scaling local self-attention for parameter efficient visual backbones. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12894–12904, 2021. 2
[51] Ashish V aswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems,30, 2017. 2
[52] Fei Wang, Mengqing Jiang, Chen Qian, Shuo Y ang,Cheng Li, Honggang Zhang, Xiaogang Wang, and Xiaoou Tang. Residual attention network for image classification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3156–3164, 2017.
[53] Weiyue Wang and Ulrich Neumann. Depth-aware cnn for rgb-d segmentation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 135–150, 2018. 5, 7
[54] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. 2, 3, 4,6
[55] Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, and Y unhe Wang. Multimodal token fusion for vision transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12186–12195, 2022.
[56] Sanghyun Woo, Jongchan Park, Joon-Y oung Lee, and In So Kweon. Cbam: Convolutional block attention module. In Proceedings of the European conference on computer vision (ECCV), pages 3–19, 2018. 2
[57] Enze Xie, Wenhai Wang, Zhiding Y u, Anima Anandkumar, Jose M Alvarez, and Ping Luo. Segformer:Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems, 34, 2021. 3
[58] Y ajie Xing, Jingbo Wang, and Gang Zeng. Malleable 2.5 d convolution: Learning receptive fields along the depth-axis for rgb-d scene parsing. In European Conference on Computer Vision, pages 555–571. Springer,2020. 7
[59] Hanrong Y e and Dan Xu. Inverted pyramid multitask transformer for dense scene understanding. arXiv preprint arXiv:2203.07997, 2022.
[60] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial networks. In International conference on machine learning, pages 7354–7363. PMLR, 2019. 2, 4
[61] Hengshuang Zhao, Jiaya Jia, and Vladlen Koltun. Exploring self-attention for image recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10076–10085,2020. 2, 3
[62] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2881–2890, 2017. 7
[63] Zhen Zhu, Mengde Xu, Song Bai, Tengteng Huang,and Xiang Bai. Asymmetric non-local neural networks for semantic segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 593–602, 2019. 2, 3, 4

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值