Cross-Modal Weighting Network for RGB-D Salient Object Detection

Cross-Modal Weighting Network for RGB-D Salient Object Detection

用于RGB-D显著性目标检测的跨模态加权网络

   

动机

1. 现有的 SOD以RGB输入,会遇到对比度低和背景干扰等问题。深度数据有利于SOD。

2. 之前的方法,两流架构和单流架构没有充分利用不同模态和CNN块的尺度之间丰富的交互信息。

方法

网络框架

 

        提出的CMWNet 是一个3级编-解码器结构,并且训练的时候利用深层监督策略,这种3级的网络结构主要是充分考虑到基础网络中不同卷积块的特性,比如浅层的conv1 ,conv2 含有更多的边缘信息和细节信息,因此他们将和conv3 conv4一起负责细节增强,深层的conv5 含有更多的位置和语义信息,因此,它们将负责位置增强


三个提出的RGB深度交互模块的详细信息:CMW-L、CMW-M和CMW-H。所有模块都包括depth到RGB权重(DW)和RGB到RGB权重(RW)作为关键操作。值得注意的是,CMW-L和CMW-M中的DW是在两个相邻块之间以跨尺度方式执行的,这有效地捕获了特征连续性并激活了跨模态跨尺度交互。

             如上图所示, 这3个模块都含有depth-RGB weighting (DW)操作,还有RGB-RGB weighting(RW),值得注意的是,在CMW-L 和 CMW-H 中,他们的 DW 是跨模态和跨尺度进行的,比如中间的CMW-M,深度图的 Conv4_3 是和RGB中的Conv3_3进行交互和融合的,深度图的 Conv3_3 是和RGB中的Conv4_3进行交互和融合的。


 如上图所示,在 CMW-L中,为了更加有效的捕捉深度特征中融合的互补信息。使用两个卷积核为3*3的卷积层,捕捉深度特征的局部信息。一个卷积核为3*3.膨胀率为5的膨胀卷积和一个卷积核为7*7的卷积层,捕捉深度特征的全局信息。再通过串联卷积操作得到深度响应图DW可以表示为,相比较于DW操作,为了保持深层的RGB响应图和RGB特征的一致性,我们使用一个3*3的卷积层以生成,那么 RW 的操作可以表示为,然后我们将 DW 和RW  操作后的特征与原始的RGB 特征相加,得到,最后,CMW-L的输出是将串联起来。

        经过这样充分的跨模态 跨尺度的交互,输出的特征 cmw(1) 将蕴含丰富的互补信息,显著对象得到有效增强和凸显。


 

         对于CMW-H , 它的操作比较简单,是将跨尺度DW 操作改为同尺度DW 操作,这样就可以保持对象定位的准确性。


 

DW 和 RW 操作相比于线性增强更加准确突出显著的对象。


 

在训练阶段,采用了深层监督策略,总的Loss 如上图所示。我们在R-E(5),D(5) 和D(3 & 4) 之后添加一个卷积层,以在训练阶段生成中间预测S(4),S(3) 和S(2)。然后,我们利用不同的地面真实尺度 (GT) 来监督它们和具有softmax损失的最终预测S(1)。总损失L可以定义为:

 其中是softmax损失,α t是损失权重并设置为1,G(t) 是与S(t) 具有相同分辨率的GT。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值