Dynamic Message Propagation Network for RGB-DSalient Object Detection笔记

一、摘要

通过在特征水平上控制RGB图像和深度图之间的消息传递,探索RGB和深度特征上的远程语义上下文和几何信息,提出了一种新颖的用于rgb-d显着对象检测的深度神经网络框架。使用图神经网络和可变形卷积制定了动态消息传播 (DMP) 模块,以动态学习上下文信息并自动预测用于消息传播控制的过滤器权重和亲和矩阵。进一步将该模块嵌入到基于暹罗的网络中,分别处理RGB图像和深度图,并设计了一个多层次特征融合 (MFF) 模块,以探索精炼的RGB和深度特征之间的跨级别信息。

二、解决的问题

问题

基于CNN的算法采用具有固定感知域的核来捕获局部信息,这难以获得RGB图像和深度图之间的长程上下文依赖关系,从而限制了RGB-D SOD的性能。

解决方法

提出动态控制RGB特征和深度特征之间的消息传递,并通过探索RGB图像和深度图上的远程上下文和几何信息,同时捕获RGB和深度特征上的远程上下文信息,以推断显着对象。

制定了动态消息传播图: 通过rgb-d SOD方法 (即,DMRA ,DANet ,CMWNet ,JLDCF 和我们的) 进行显着性预测。由于动态消息传播 (DMP) 模块的远程依赖关系可以最大程度地保留显着对象的边界信息,因此DMP-Net生成比其他方法更好的显着性映射。(DMP) 基于图神经网络 (gnn) 的模块,该模块从RGB和深度特征图中自适应地采样周围的上下文和深度感知信息,并动态预测滤波器权重和亲和力矩阵以进行消息传播控制。因此,它与cnn中的常规内核完全不同,后者具有有限的建模远程依赖项的能力,并且仅感知固定的局部区域。此外,设计了一个多级特征融合 (MFF) 模块,以结合网络解码器的多级特征,以充分利用改进的RGB特征与深度特征之间的交叉信息。

贡献总结如下:

设计了一个动态消息传播网络 (DMP-Net),用于rgb-d显着对象检测,通过制定一个DMP模块来动态采样上下文和深度感知特征,并进一步探索RGB图像和深度图之间的长期上下文相关性。 设计了一个多级特征融合 (MFF) 模块,以利用RGB图像和深度图之间的交叉模态特征,并增强特征重建的综合语义。提出了一种[图结构模块,该模块利用可变形卷积网络来学习来自RGB和深度流的文本特征表示,并在RGB和深度图之间传播这些消息,以用于rgb-d SOD。

三、整体框架结构

动机 可以采用图神经网络来学习显着对象的动态特征表示,它依赖于灵活的节点和边来代替固定的内核来学习远程上下文信息。此外,包含丰富几何信息的多尺度深度特征可辅助RGB特征以粗略到精细的方式理解对象形状。

图一

DMP-Net的管道:编码器(左侧部分)由一个简单的VGG层和完整的DenseNet(其余层)组成。我们介绍了建议的动态消息传播(DMP)模块中的高级别层。解码器(右侧部分)主要由用于多模态和多层次特征融合的多层次特征融合(MFF)模块组成。

DMP-Net的主干是一个典型的双流编码器-解码器架构,其中RGB和深度特征被单独处理,然后以跨模态和跨级别的方式融合。编码器网络采用了Siamese网络。它具有共享参数的特性,这有利于利用RGB和深度模态之间的共性。在编码器中,为了对远程上下文依赖关系进行建模,在高级特征上应用两个动态消息传播(DMP)模块来聚合RGB特征和多尺度深度特征。在解码器中,通过跳过连接将每一层中的特征与编码器网络中相应层的特征融合在一起,以恢复原始的比例信息。此外,每一层都与所有更高级别的层相连,以捕获丰富的多尺度信息。

特征提取 由于RGB图像和深度图包含不同的通道,首先归一化深度图并在通道维度中重复。为了提取丰富的信息特征,采用DenseNet 作为骨干网,在骨干网中,保留所有卷积层,并丢弃最后一个池化层和全连接层。但是,DenseNet中的第一卷积层降低了图像的分辨率,导致特征不完整,我们从VGG-16 借用第一个卷积层来提取原始分辨率的特征。利用暹罗策略同时挖掘RGB和深度特征。

图二

DMP由三个分支 (a) 组成,用于动态融合RGB特征和多级深度特征。每个分支 (b) 将从图像和深度特征图中采样动态节点,并从深度节点学习过滤器权重和亲和力矩阵以传播消息。∆ di,ai和wi分别表示每一层的学习步行,过滤权重和亲和矩阵。S表示采样上下文感知节点和深度感知节点。

动态消息传播 (DMP) 消息传递机制构造一个特征图G = {V,E,a},其中V为节点集,E为边集,A为邻接矩阵。DMP将输入特征图视为一个图,其中每个像素是一个向量节点vi ∈ RC,并且该图的所有节点组成集合V = {vi}N i,其中C是输入特征图的通道,N是像素的总数。二进制或可学习的邻接矩阵A ∈ rn × N可以以自循环的方式描述节点之间的连接。

该机制的目标是通过从不同节点位置的特征向量。消息传递阶段一般采取T次迭代步骤来细化潜特征向量,由消息计算步骤Mt和消息更新步骤Ut组成。考虑到迭代t时的潜在特征向量h(t) i,它对K个节点进行了动态采样,这些节点被连接以形成局部域vi,V和vi ∈ rk × C,其中C是向量的维数,K N。因此,节点i的消息计算步骤公式化为:

其中Ai,j描述了潜在节点h(t)i和h(t)j之间的连接关系,N(i)表示来自vi的所有K个采样节点,并且wj ∈ RC×C是用于计算隐藏节点h(t)j上的消息的变换矩阵。然后,节点h(t)i将在消息更新步骤Ut中用计算的消息和先前节点状态的剩余相加来更新:

α mi是缩放消息的可学习参数,并且运算σ(·)是诸如ReLU的非线性函数。经过T次迭代后,通过每个节点上的消息传播获得最终的细化特征。

DMP包括两个阶段。第一个是RGB图像和深度图特征上的节点采样,用于选择图中最与对象相关的节点。第二种是从深度采样节点生成混合滤波器权重和亲和矩阵,以丰富图像特征的上下文信息。

如图二所示,先对图像和深度特征图中的上下文感知节点进行采样。利用固定的采样策略很难适应复杂的场景中,显着的对象有不同的尺度。因此,我们采用可变形卷积来动态采样节点。对于每个节点vi,采样数K表示类似于卷积核大小的vi的感受野。将学习的行走Δ di,j ∈ RD分配给vi周围的K个节点作为相对于R的移动路径,其中j ∈ N(i)表示vi周围的K个采样节点,D = 2是2D空间偏移,R是vi的固定3×3感受野,

应用卷积层以产生具有2K个通道的偏移字段,其中每个元素表示采样节点的K个预测的行走。然后,我们将额外的偏移量添加到R中的每个位置,

其中pi是vi的位置,pj是R中采样节点vj的位置,Δ pj是vj的预测行走。

在上述操作之后,获得图像和深度特征图上的动态采样节点。由于RGB和深度模态之间的差异,独立地预测每个特征图的行走。对三个不同层次的深度节点进行采样,以获得全面的深度感知上下文。随后,我们基于多级深度采样节点生成亲和矩阵A和变换矩阵W,并与图像节点分开计算。对于层次l,已经分别从图像和深度特征图中获得了采样节点vi,j和vi,j。不同级别的深度特征已经通过下采样或上采样操作与RGB特征的对应尺度对准。深度节点还通过应用3 × 3卷积层来生成亲和度矩阵A1i,j和变换矩阵W1i,j,随后利用如等式1的采样图像特征来计算亲和度矩阵A1i,j和变换矩阵W1i,j。

其中L表示需要消息传播的层,h l,(t)j是特征向量,其是来自阶段l的图像节点vi,j,其中行走∆di,j和βl被设置为1以平衡来自不同层的深度特征图。

图三

多尺度特征融合(FF)模块的结构。所有卷积层和最大池化层都有k/4个输出通道,目的是保持特征通道的数量。

多层次特征融合(MFF):首先设计一个功能通道压缩(FCC)模块(如图一所示)压缩提取所有特性为后续队伍统一渠道k。最后的预测水平由地面真理和监督作为Lg表示损失函数。为了有效地开展多层次功能融合,把相应的RGB特性Xl RGB和深度特性Xl d在同一层获得的熔融特性Xl f。这个跨通道融合模块由简单element-wise加法和乘法,这是制定为:

其中,l表示编码器层的索引,并且和分别表示逐元素加法和乘法。逐元素加法强调跨模态互补性,而逐元素乘法更侧重于跨模态共性。因为在编码器的第四层和第五层中利用DMP,其动态地聚合RGB特征和多级深度特征,所以不需要再次融合这两层的特征。融合的特征随后被发送到每层中的特征融合(FF)模块。与传统的UNet类解码器不同,本文利用密集链接策略来聚合和丰富多级特征,通过简单的元素加法将所有更高级别的FF特征和相应的融合侧出特征作为FF的输入。受Inception 结构的启发,FF将四个分支应用于输入特征以扩展感受野,并将它们连接以获得信息特征。具体来说,MFF包括滤波器大小为1×1、3×3和5×5的多尺度卷积,以及用于捕获细粒度细节的最大池化操作。此外,最后一个MFF的特征被发送到预测层以获得最终显著图。我们将损失函数表示为Lr。

E.总损失函数由全局预测损失Lg和细化预测损失Lr来公式化。我们在最后一个编码器层上应用1 × 1卷积层以获得全局预测图Sr和Sd,并且将另一个1 × 1卷积层应用于最后一个MFF的输出以预测最终的显著图Sf。总损失可以用数学公式表示为:

其中,G是基础事实,并且λ是全局损耗与细化损耗之间的平衡因子。我们利用广泛使用的交叉熵损失来计算Lf和Lr:

其中i代表像素索引,S是预测显著性图。

实现细节 由于Siamese网络的参数共享特性,我们将深度图复制到三个通道,与RGB图像相同。为了便于卷积,所有RGB图像和深度图的大小都被调整为320 × 320的固定大小,第一个VGG层的输出大小也是320×320以进行大小恢复,DenseNet的后续输出大小为160×160,80×80,40×40,20×20和20×20。然后,将来自编码器网络的分层特征以侧输出的方式发送到解码器网络。然而,这些特征的分辨率和通道数是变化的,我们设计了一个特征通道压缩(FCC)模块来统一侧输出特征的通道数为一个固定的k。两个好处:1)减少存储器和计算的成本,2)促进不同级别之间的特征的逐元素操作。

以第一个DMP模块为例来说明动态消息传播的过程。首先,从Conv 4层中提取RGB特征,并从Conv 3,Conv 4和Conv 5层中提取分层深度特征。深度特征经由步幅MaxPooling或插值操作与对应的图像特征对齐到相同的大小,然后将RGB特征和多级深度特征转换为具有1×1卷积的固定通道数C。DMP将RGB特征取为F ∈ RC×H×W,将初始特征映射H(0)= F。图像节点的动态行走Δ d由3 × 3卷积层生成。类似地,在深度特征图上应用其他3 × 3卷积层以生成各种动态行走Δ ~ d。通过3 × 3卷积层在多级深度特征F1 dep ∈ RC×H×W上计算亲和矩阵和权重,其中l表示Conv 3、Conv 4和Conv 5层。然后,获得亲和矩阵Al ∈ RH×W×K×G和滤波器权重Wl ∈ RH×W×K,其中K是采样范围(即,3 × 3),K是组大小。消息M ∈ RC×H×W根据等式5计算。并与F连接以产生细化的特征图H(1),在这项工作中仅迭代一次以平衡性能和效率。

四、总结

本文提出了一个动态的消息传播网络,称为DMP-Net,它创新地应用了基于图的范式的远程上下文依赖学习RGB-D SOD。DMP-Net由三个关键组件组成。首先,利用Siamese编码器同时提取RGB图像和深度图的多层次特征。然后,提出了一个动态消息传播(DMP)模块,动态聚合跨模态的功能和增强的混合信息。此外,设计了一个多层次的特征融合(MFF)模块,集成的高层特征,并获得细粒度的功能,一步一步。大量的定量和定性实验表明,DMP-Net的优越性SOTA方法和具有挑战性的情况下,其鲁棒性和泛化能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值