RGB-D Saliency Detection via Cascaded Mutual Information Minimization笔记

一、摘要

现有的rgb-d显着性检测模型并未明确鼓励RGB和深度实现有效的多模式学习。本文通过相互信息最小化引入了一种新颖的多阶段级联学习框架,以显式地建模RGB图像和深度数据之间的多模态信息。首先将每种模式的特征映射到较低维的特征向量,并采用互信息最小化作为正则化器,以减少来自RGB的外观特征与来自深度的几何特征之间的冗余。然后执行多阶段级联学习,以在网络的每个阶段施加互信息最小化约束。

二、解决的问题

作为多模式学习任务,经过训练的模型应使网络容量内不同模态的联合熵最大化。最大化联合熵也等于互信息的最小化,这阻止了网络关注冗余信息。对RGB图像和深度数据之间的互补信息进行显式建模,通过相互信息最小化引入了多阶段级联学习框架。具体引入互信息最小化作为正则化器,以实现两个主要好处: 1) 显式地建模外观特征和几何特征之间的冗余; 2) 有效地将外观特征和几何特征与互信息最小化约束融合。

主要贡献: 1) 通过互信息最小化设计了一个多级级联学习框架,用于rgb-d显着性检测,以 “显式” 模型RGB图像和深度数据之间的冗余。2) 互信息最小化正则化器可以很容易地扩展到其他多模态学习管道,以对多模态的冗余进行建模。3) 贡献了最大的rgb-d显着性检测数据集,具有15,625标记集和5,000未标记集,以实现完全/弱/无监督的rgb-d显着性检测。4) 出了用于rgb-d显着性检测的新基准,并介绍了用于立体和弱监督的rgb-d显着性检测的基线模型。

三、整体框架结构

将RGB图像和深度馈送到显着性编码器,以使用互信息正则化器项提取每种模式的显着性特征,以使特征彼此不同。然后将每个模式 (za和zg) 的低维特征与原始图像特征 (ea和eg) 融合,以有效地对每个模式的互补信息进行建模,并获得我们的最终预测P。“DenseASPP” 模块是密集atrous空间金字塔池模块,“DA” 是双重注意模块。

在ResNet50网络上构建显著性编码器,该网络包括四个卷积阶段 {s1,s2,s3,s4}。我们在每个sc ∈ {sc}4 c = 1之后增加一个核大小为3 × 3的卷积层,以将sc的通道维数减小到C = 32,并获得特征图 {e1,e2,e3,e4}。RGB显著性编码器模块的最终输出为ea = {e1 a,e2 a,e3 a,e4 a},深度显著性编码器的输出为eg = {e1 g,e2 g,e3 g,e4 g}。RGB显着性编码器和深度显着性编码器共享相同的网络结构,但权重不相同。

给定来自RGB显着性编码器的输出ea = {e1 a,e2 a,e3 a,e4 a} 和来自深度显着性编码器的eg = {e1 g,e2 g,e3 g,e4 g},将RGB特征和深度特征都映射到低维特征空间以进行特征嵌入。具体来说,提出了一种多阶段级联学习策略,以在网络的每个阶段执行互补学习。对于较低的阶段,将RGB特征 {ec a}3 c = 1和深度特征 {ec g}3 c = 1提供给两个不同的3 × 3卷积层 的 “conv3x3”,以获得RGB分支和深度分支的通道尺寸4 ∗ C的特征图。然后,采用两个完全连接的层 (“fc”) 将通道尺寸4 ∗ C的特征图分别映射到两个不同的低维特征向量 {zc a}3 c = 1和 {zc g}3 c = 1,大小K = 6。采用互补学习相关损失来减少较低阶段的RGB和深度的特征冗余。在最高阶段,首先在空间维度上平铺低维特征向量z4 a和z4g。然后,将它们与其他模式的原始图像特征1连接,分别获得RGB分支和深度分支的4 ∗ C K通道尺寸特征图ra和rg。

获得RGB图像和深度数据的特征嵌入za和zg之后,引入互信息最小化正则化器,以显式地减少这两种模态之间的冗余。基本假设是,良好的外观显着性特征和几何显着性特征对应同时携带公共部分 (语义相关) 和不同属性 (域相关)。互信息MI用于测量熵项之间的差异

其中H(.) 是熵,H(za) 和H(zg) 是边际熵,H(za,zg) 是za和zg的联合熵。直观地,我们有两个潜变量 (或条件熵) 的Kullback-Leibler散度 (KL) 为:

其中

是交叉熵。然后对公式1、公式2、公式3求和,并获得:

给定RGB图像和深度数据,H(za,zg) 是非负的,则可以通过最小化来实现最小化互信息:

直观地,MI(za,zg) 测量当观察到zg时za中不确定性的降低,反之亦然。作为多模式学习任务,每种模式都应该从其他模式中学习任务的一些新属性。通过最小化MI(za,zg),可以有效地探索两种模态的互补属性。

采用二进制交叉熵损失Lce作为目标函数来训练多阶段级联学习框架,其中互补约束如式所示,将RGB图像的显着特征分布与深度数据的显着特征分布分开。最终的目标函数是:

四、结论

提出了一种基于多阶段级联学习的rgb-d显着性检测框架,该框架对RGB图像和深度数据之间的互补信息进行了显式建模。通过在训练过程中最小化这两种模式之间的相互信息,模型专注于每种模式的不同部分,而不是冗余信息。模型能够更有效地利用多模式信息。此外,引入了最大的rgb-d显着性检测数据集,其中包含五种类型的注释,以促进完全/弱/无监督的rgb-d显着性检测任务的开发。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值