RGBD Salient Object Detection via Disentangled Cross-Modal Fusion

RGBD Salient Object Detection via Disentangled

Cross-Modal Fusion

IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 29, 2020

        深度对于显着目标检测 (SOD) 具有其他显着性提示是有益的。 现有的RGB-D SOD方法侧重于剪裁复杂的跨模态融合拓扑,虽然取得了很好的性能,但在研究跨模态互补性时存在过拟合和不确定的风险。 与这些完全结合跨模态特征而不区分的传统方法不同,我们将注意力集中在解耦(decoupling)不同的跨模态互补以简化融合过程并增强融合充分性。 我们认为,如果可以明确地分离跨模态异构表示,则跨模态融合过程可以保持更少的不确定性,同时具有更好的适应性。 为此,我们设计了一个分离的跨模态融合网络,通过跨模态重建暴露两种模态的结构内容表示。 对于不同的场景,分离的表示允许融合模块轻松识别和合并所需的补充信息,以进行信息多模态融合

structural contexts对于同一场景,不同的传感器通常会捕获相同的场景结构,对象布局和关系。场景理解需要structural contexts来全局感知场景,例如对象定位和细节内容,以细化一些局部区域;

contents图像的外观、亮度、颜色分布、细节边界和噪声。结构语境更加不可知,而contents跨模态更具体,

我们将每种模态嵌入到两个空间中:

1)相对模态无关的structural contexts空间

2)更特定于模态的contents空间

structural contexts空间旨在捕捉结构上下文(包括场景布局和对象结构),其中相当一部分在RGB深度对中很常见

contents空间则用于提取特定于模式的内容(例如颜色和亮度)。

跨模态重建:满足跨模态重建的一个可能陷阱是,优化器可能会同时驱动两个结构编码器不学习任何有用的特征来共享。我们通过添加显著性预测损失来强制每个结构编码器从每个模态中学习鉴别特征,从而克服了这个问题

cross-modal disentanglement framework

目标:从RGB和深度图两种模态中分离出与模态无关的结构表示特定于模态的内容,以使多模态融合能够自适应地结合所需的特征。

整体框架

输入 RGB、 深度图对和相应的显著性真值掩码 { , , Y}、

结构上下文编码器 {, }:分别从RGB和深度图中提取结构上下文特征,是高级的并且可以跨模态共享

特定于模态的内容编码器 {, }负责提取特定于模态的特征

用于重建的生成器 {, }将四个表示片段解开

多模态融合模块和显著性预测层:将分离的切片进行融合,最终进行集体推理。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值