DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D Salient Object Detection
Abstract
目前在RGBD的显著性物体检测中主要有两个问题:(1):如何有效地整合跨模态RGB-D数据的互补性;(2)如何限制从不可靠的深度图中所导致的污染。实际上这两个问题之间存在一定的相联系。在以往的研究中,我们一般仅仅聚焦于第一个问题而忽略了深度图的质量,深度的质量可能会导致模型陷入次优状态。在本文中,我们会在整体模型中协同地解决这两个问题,并且提出了一个名为DPANet的新网络架构,DPANet可以有效整合夸模式互补。通过引入深度潜力感知,网络可以以基于学习的方式感知深度信息的潜力,并指导两个模态数据的融合过程,以防止发生污染。融合过程中的门控多模式注意力模块(Gated multi-modality attention )通过利用门控制器的注意力机制从交叉模式的角度来捕获远程依赖关系。点此访问源代码
Introduction
显著物体检测(SDO)旨在定位在一张图片中最吸引人类注意力的区域。作为一项预处理的技术,SOD有益于各种应用,比如图像分割,人的识别和图像理解,创建略缩图,图片质量评估和图像增强,在过去,基于CNN的方法具有强大的CNN表示能力,因此在SOD任务中取得了可喜的表现。他们中的大多数用于在RGB图片中检测显著物体,但是在某些挑战性和复杂的场景中仅使用一个模态数据(此处指RGB图像)很难获得更好的性能,例如前景和背景之间外观相似(图1第一行)或背景的干扰比较杂乱时(图1第二行)。最近,得益于价格合理的便携式设备,深度信息逐渐变得越来越受欢迎。除了颜色外观信息(例如形状结构和边界信息)外,它还可以提供许多有用且互补的提示,并且已经成功应用于许多视觉任务中,将深度信息引入SOD确实在一定程度上解决了这些难题。但是如图1所示,在深度图不准确时会为SOD检测引入污染。以前的方法通常以不加区别的方式集成RGB和深度信息,当遇到不正确或者模糊的深度图片时,可能会导致负面效果。此外,通常无法通过级联,乘法等简单策略融合来捕获来自RGB和深度图的不同模态的互补信息,这可能h会降低显著性结果。另外,我们还有两个主要问题需要解决:(1):如何防止不可靠的深度信息所造成的污染。(2):如何有效地结合RGB图像和相应的深度图中的多模式信息。
为了解决上述问题,我们提出了一种深度潜能感知温控注意力网络(DPANet),该网络可以同时对深度图进行建模,并在门控注意力机制中优化RGB和深度信息的融合过程。与其将RGB图像和深度图中的多模态信息无差别地整合起来,我们关注的是通过基于学习的方式考虑深度潜力感知来自适应地融合两个模态数据。深度潜力感知可作为控制器来指导交叉模式信息的聚集,并防止来自不可靠的深度图的污染。对于深度潜能感知,我们将显著性检测作为任务方向来测量二进制深度图和相应的显著性掩码之间的关系。如果通过简单的阀值方法(例如:Ostu)获得的二进制深度图很接近真值,则深度的可靠性很高,因此应为此深度输入分配更高的深度置信度。么空多模态融合(gated multi-modality fusion)将采用深度置信度响应,以更好地整合交叉峰信息并且防止污染.
考虑到RGB和深度信息的互补和不一致新,我们提出了门控多模态注意力模块(GMA),以从跨模态的角度捕获远程依赖。对RGB-D图像的交叉模式特征进行级联或者求和不仅具有信息冗余性,而且还使整整有效的补充信息被大量的数据特征所淹没,因此,我们设计的GMA模块利用空间注意力机制来提取最具区别性的特征,并且可以减少由不可靠的深度图引起的负面效应。此外,我们设计了一种多级特征融合机制,以更好地集成不同级别的特征,包括单峰特征和多峰特征。如图一所示,所提出的网络可以处理一些具有挑战性的场景,例如背景干扰(外观相识)复杂的场景以及不可靠的深度图。
总而言之,我们的主要贡献可以归结为以下几点:
- 首先,我们以端到端的方式解决了RGB-D SOD网络中不可靠的深度图,并通过将深度潜力感知纳入跨模态集成管道中来提出了DPANet。
- 在不增加训练标签(即深度质量标签)的情况下,我们对面向任务的深度潜力感知模块进行建模,该模块可以自适应地感知输入深度图的潜力,并进一步减弱来自不可靠深度信息的污染。
- 我们提出了一种新的GMA模块来有效地整合RGB和深度图像的跨模态互补性,其中空间注意力机制旨在减少信息冗余,而门控控制器则专注于调节跨模态信息的融合率。
Related Work
RGB Salient Object Detection
…
RGB-D Salient Object Detection
…
Methodology
A. Overview of the Proposed Network
如图二所示,所提出的网络是对称的两流解码器架构,简而言之,我们将从RGB分支解码过程所输出的特征定义为rbi(i = 1,2,3,4,5),从深度流分支的解码过程的输出定义为dbi(i = 1,2,3,4,5),然后分别馈入GMA模块以分别获得相应的增强功能rfi,dfi,在GAM模块中,gate的权重是由网络以有监督的方式来学习的。具体来说,顶层的特征rb5和db5穿过全局平均池化(GAP)层和两个完全连接的层,以借助伪标签通过回归损失学习深度潜力的预测分。然后,两个分支的解码器逐步集成多尺度特征。最后,我们使用“多尺度和多模态融合模块”来汇总两个解码器的输出并生成显著性图。为了促进优化,我们在每个子阶段都添加了辅助损耗分支,即rdi和ddi(i = 5,4,3,2)
B. Depth Potentiality Perception
以前的大多数作品通常不加区分地整合了RGB的多模式特征和响应的深度信息,但是如前面所说的,当深度图不可靠时会存在一些污染。为了解决这类问题,Fan等人提出了一种深度净化单元,以机械(mechanical)和无监督(unsupervised)方式来切换RGB和RGB-D路径。与Fan等人的方法不同,我们提出的网络可以显示地对深度图的置信度响应建模并以一种软的方式控制融合过程,而不是直接丢弃低质量的深度图。由于我们没有使用任何用于深度图质量评估的标签,因此我们将深度潜力感知建模为面向显著性的预测任务,也就是说我们训练的模型可自动了解二进制深度图和相应的显著掩码之间的关系,上面的建模方法是基于以下观察结果:如果被阀值分割的二进制深度图接近真值,则深度图是高度可靠的,因此应该为该深度输入分配更高的置信度响应。具体来说,我们首先应用Otsu算法将深度图转化为二进制的二进制深度图。他从显著性角度描述了深度图的潜力。然后,我们设计了一种度量以评估二进制深度图与真值图之间的相关程度。采用IoU(intersection over union)来测量二进制图二进制图与真值之间的精度。可以表示为:
| · |表示区域,然而在某些情况下粗略的二进制深度图将包含背景,这将导致Diou趋于变小,即使最终的显著图与真值图之间非常接近也会是如此。
指标Dcov反映了相交面积与真值图之间的比率,这表明二进制深度图有望覆盖更加完整的显著对象。最后受F-Measure的启发,我们将这两个度量结合起来以衡量深度图对SOD任务的潜力。
γ是一个加权系数,考虑到阀值分割可能引起噪声和不准确性,在结合IoU度量和cov度量时我们更加强调覆盖区域的完整性。因此我们将γ设置为0.3以便于符合文献[53]中的设置。
为了学习深度图的潜力,我们提供D(I’,G)作为伪标签g来指导回归过程的训练。具体来说,两个分支的主干的顶层特征在通过GAP后被连接起来,然后应用两个完全连接的层以获得估计g’。D(I’,g)仅在训练阶段使用。由于g’反映了深度图的潜在置信度,因此我们将其引入GMA模块,以防止融合过程中不可靠的深度图的污染,这将在GMA模块中进行解释。
C. Gated Multi-modality Attention Module
考虑到交叉模态RGB-D数据存在互补性和不一致性,直接整合交叉模态信息可能会导致负面结果,绿如来自不可靠深度图的污染,此外,单一模式的特征通常在空间或渠道方面比较丰富,但也包含信息冗余。为了解决这些问题,我们设计了一个GMA模块,该模块利用注意力机制自动选择和增强用于显著性检测的重要功能,并将门控制器集成到GMA模块中,以防止来自不可靠的深度图的污染,为了减少单峰特征的冗余并突出区域上的特征响应,我们分别对输入特征rbi和dbi施加了空间注意(‘图三中的‘S’’)
fin表示从RGB或者深度分支所输入的特征(rbi或dbi),convi(i = 1,2)表示卷积层, ⊙表示逐元素相乘,δ是ReLU激活函数,fout代表修改后的RGB/深度特征(rbi’或者dbi‘),修改后的特征rbi’和dbi‘的特征的通道数在每个阶段统一为256,注意在模型中,RGB和深度分支之间并未共享权重。
此外,收到自注意力机制的成功的启发,我们设计了两个对称的注意力子模块,以从交叉模式的较大捕获长期以来关系。以图三中的Adr为例,Adr利用深度图为RGB特征产生空间权重rbi’,因为深度线索通常可以为RGB分支提供有用的信息(比如突出物体的初略位置),从技术上讲我们首先应用1x1卷积运算将特征dbi改变为Wq(C1x(HW)),Wk(C1x(HW)),将rbi改变为Wv(Cx(HW)),C,H,W分别表示特征图Wv的通道,高和宽,为了提高计算效率,将C1设为C的1/8,我们用一下计算方式来增强特征:
在Wa的列中应用softmax,圆内乘符号表示矩阵乘法,然后将增强的特征fdr重塑为CxHxW,另一个子模块Ard与Adr对称,这两个注意力模块旨在从交叉模块的角度捕获长期依赖关系Adr利用深度信息为RGB特征生成空间权重,而Ard通过使用从RGB特征生成的空间权重来优化深度特征。最后我们引入限制为g1+g2=1的g1和g2以控制增强特征和修改特征的相互作用,可以将其表示为:
rfi和dfi分别是RGB和深度的改进特征,rfi和dfi用于解码阶段。在公式9,我们使用门来控制增强功能和修改功能的交互。对于增强功能,权重g1=g’,g‘是在伪标签g的监督下学习的。当g‘接近1时,表示深度图高度可靠,并且将更多的深度信息引入RGB分支以减少背景干扰。当g’接近0,RGB分支将会成为主要分支,而采用的深度信息则更少,并且RGB信息将在防止深度污染方面起更重要的作用。一些特征的可视化图如图7所示。以第三张图片为例,深度图的质量在直观上就感觉比较差,因此增强功能fdr错误的聚焦在下方区域。但是在权重g1的约束下,我们得到的编码器特征可以有效地突出显著区域并抑制增强特征fdr的特征。更多细节将在IV-E节中讨论。
D. Multi-level Feature Fusion
由于交叉模式信息,特征融合在RGB-D显着性检测中扮演着更为关键的角色,为了获得更全面和有区别的融合功能,我们考虑了多级特征融合的两个方面。首先,不同比例的要素包含不同的信息,这些信息可以相互补充。 因此,我们使用多尺度渐进融合策略来整合从粗糙到精细的单峰特征。其次,对于多模式功能,我们利用设计的GMA模块单独增强功能,而不是尽早融合RGB和深度功能,这样可以减少不同模态的干扰。 最后,我们通过使用多模态特征融合来聚合两个模态特征以获得显着性图。
Multi-scale Feature Fusion.
*低级功能可以提供更多详细信息,例如边界,纹理和空间结构,但可能对背景噪声敏感。相反,高级特征包含更多的语义信息,这有助于定位显着对象并抑制噪声。*与先前的著作[13],[14]通常通过级联或求和运算来融合低级特征和高级特征不同,我们采取更加积极有效的行动(比如:乘法),乘法运算可以增强突出对象的响应,同时抑制背景噪声。具体地,以高等级特征rd5和低等级特征rf的融合为例,可以将多尺度特征融合描述为:
其中 upsample 是通过双线性插值进行的上采样操作,[·,·]表示级联操作,融合结果fF恰好是下一融合阶段的更高级别的功能
Multi-modality Feature Fusion
在多模式特征融合中,我们考虑两个问题,(1)如何从RGB和深度功能中选择最有用和互补的信息。因此,当结合来自两个模态数据的补充信息时,我们学习权重α来平衡补充性。权重α是从两个分支主干的顶层功能中学到的,这说明了多模式功能的通道重要性。(2)如何防止由于融合过程中由不可靠的深度图而造成的污染(干扰)。因此,权重g’用于控制深度信息的引入比率,权重g’在伪标签(Label)g的监督下学习,反映了深度图的潜在置信度。
具体来说,为了融合跨模态特征rd2和dd2,我们设计了加权通道注意力机制来自动选择有用的通道,可以将其表示为:
α是从RGB和深度信息中学习的权重向量。g’是前面提到的门的学习权重。等式15反映了对显著物体的共同响应,而等式14通过通道选择(α)和门控机制(g’)集合了联众模态特征,以考虑互补性和不一致性。
E. Loss Function
为了训练网络,我们考虑使用分类损失和回归损失来定义损失函数,其中使用分类损失来约束显着性预测,而回归损失旨在模拟深度势响应。
Classification Loss
在显着性检测中,通常采用二进制交叉熵损失来度量预测的显着性图与真值图之间的关系。定义如下所示:
其中H,W分别代表图像的高度和宽度,G代表真值图,S代表预测的显着性图。为了促进所建议网络的优化,我们在四个解码器阶段添加了辅助损失。具体来说,将3*3卷积层应用于每个阶段(rdi,ddi,i = 5; 4; 3; 2),以将输出特征图的通道压缩为1。然后,通过双线性插值法将这些图上采样到与真值图相同的大小,并使用S形函数将预测值归一化为[0; 1]。因此,整个分类损失由两部分组成,即,对应于每个子阶段的输出的主要损失和辅助损失。
λi表示不同损失的权重,ldom,liaux分别表示主要的和辅助的损失(dominant loss和auxiliary损失)辅助损失分支仅存在于训练阶段。
Regression Loss
为了建模深度图的潜力,平滑的L1损耗[56]用作监控信号。 平滑L1损耗定义为:
其中g是深度电势感知中提到的伪标记,g^表示对网络的估计,如图2所示。
Final Loss
最终损失是分类损失和回归损失的线性组合,
λ表示lreg的权重,在我们的模型中被设置为1,整个训练过程以端到端的方式进行。
IV. EXPERIMENTS
略