Hierarchical Dynamic Filtering Network forRGB-D Salient Object Detection

一、摘要

密集连接的结构集成了不同模态的特征,并使用它们的混合特征来生成具有不同大小的感受域的动态滤波器。实现了一种更加灵活高效的多尺度交叉模态特征处理,即动态扩张金字塔模块。为了使预测具有更锐利的边缘和一致的显着性区域,设计了混合增强的损失函数来进一步优化结果

二、问题的提出

对于密集预测任务,每个空间位置的损失通常是不同的。因此,不同位置的梯度的实际优化方向可能是变化的。现有方法中使用的跨不同位置的权重共享卷积操作导致每个参数的训练过程依赖于全局梯度。这迫使网络学习权衡和次优参数。

解决:

动态扩张金字塔模块 (DDPM),使用RGB深度混合特征来针对不同的输入样本和处理位置自适应调整卷积核。借助金字塔结构和扩张的卷积,这些内核可以在多个尺度上捕获丰富的语义提示。

深度和RGB特征相结合以生成区域感知的动态滤波器,以指导RGB流中的解码。设计了特定于位置的过滤器和特定于图像的过滤器

三、整体框架结构

通过两个编码网络中的卷积块 {Ei rgb}5 i = 1和 {Ei d}5 i = 1,获得具有不同分辨率的中间特征,f1,f2,f3,f4,f5。较浅的功能含更多噪声,较大的分辨率导致更高计算成本。为了平衡效率和有效性,利用深度流中最深——f3 d,f4 d,f5 d。这些特征分别与来自rgb流的特征f3 rgb,f4 rgb,f5 RGB结合。然后,使用密集块来构建传输层——合了丰富和各种感受野,并生成具有空间结构和外观细节的强大混合特征fTm。这些功能被馈送到DDPM中以产生多尺度卷积核,用于从解码器过滤功能fDrgb。通过元素加法将所得的特征fM合并到自上而下的路径中。逐层恢复分辨率之后,获得最终的预测P,该预测由地面真相G监督。

利用密集传输层的混合特征fTm,采用ddpm生成用于解码RGB特征的自适应内核。Ddpm包含两个输入: 来自解码器的混合功能fTm和功能fDrgb。一方面,对于特征图fDrgb中的特定位置,使用内核生成单元 (kgu) 来产生独立的权重张量,即fg,可覆盖3 × 3、7 × 7或11 × 11正方形邻域。KGUs也是一种致密结构。模块包含4个密集连接的层,并且每一层都以前馈方式连接到所有其他层,这可以进一步加强特征传播和表达能力,特征重用并大大提高参数效率。然后,通过重组核张量并插入不同数量的零,核变换单元 (KTUs) 构造具有不同膨胀速率的规则卷积核。另一方面,在初步降维之后,将另一个输入fDrgb重新加权并集成到三个并行分支中,以获得增强特征 {fBj }3 j = 1。实际上是逐通道调整,每个通道的操作是独立的。最后,在将 {fBj }3 j = 1和减小的fDrgb进行合并后,所得特征 {fi M}5 i = 3变得更具区分性。整个过程可以表述如下:

其中,fi M表示来自与fi Drgb相关的DDPMi的特征。DDPM(·),KGU(·) 和KTU(·) 表示相应模块的操作。R(·) 是1 × 1的卷积运算,用于将通道数从64减少到16,而在Alg中显示,这是一种自适应的卷积运算。1. C(·) 是级联运算,F(·) 是3 × 3卷积,用于融合来自不同分支的级联特征。

无论是基于RGB还是基于rgb-d的SOD任务,良好的预测都需要清晰,完整地突出显示显着区域。这包含两个方面: 一是边界的清晰度,二是类内的一致性。从损失函数开始,设计一个新的损失来约束边缘和前/背景区域,以分别实现高对比度预测。SOD任务中的常见损失函数是二进制交叉熵 (BCE)。它是像素级的损耗,在不同的位置独立进行误差计算和监督。主要形式如下:

分别表示预测和相应的地面truch。N,H和W分别是输入数据的批处理大小,高度和宽度。它计算每个位置的地面真相g和预测p之间的误差,损失Lbce累积并平均所有位置的误差。为了进一步增强边缘和区域等更高层次的监管力度,我们特别对边缘附近的区域进行了约束和优化。特别是,损失的表述如下:

Le表示边缘增强损耗 (EEL),P(·) 表示具有5 × 5滑动窗口的平均池化操作。在Equ中。如图3所示,我们可以通过计算e来获得地面真实轮廓附近的局部区域。在该区域中,可以计算出预测p和地面真实g之间的差Le。通过这种损失,优化过程可以针对显着对象的轮廓。

此外,我们还设计了区域增强损失 (REL) 来约束类内预测。通过分别计算前景类和背景类内的预测误差,可以独立地优化前/背景预测。具体地,REL Lr写为:

其中Lf和Lb分别表示前/背景损失。损失计算类内区域中的归一化预测误差。它们描绘了地区一级的监督。最后,我们将这三个损失 (Lbce,Le和Lr) 进行整合,以获得混合增强损失 (HEL),该混合增强损失 (HEL) 可以在两个不同级别上优化预测。总损失表示如下:

所提出的方法可以始终如一地产生具有更高对比度的更准确,更完整的显着性图。通过ddpm的跨模态引导,可以有效地抑制干扰混合增强损失。

结论

本文审视了深度信息在基于rgb-d的SOD任务中应发挥的作用。考虑深度信息中包含的空间结构的特征,并将其与具有丰富外观细节的RGB信息相结合模型通过动态扩张金字塔模块生成具有不同感受野大小的自适应滤波器。可以充分利用来自多模态混合特征的语义提示,实现多尺度跨模态制导,从而增强解码器的表示能力。同借助对边缘周围区域的额外区域级监督来获得更清晰的预测和前/背景区域。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值