RGB-D Saliency Detection via Cascaded Mutual Information Minimization笔记

咦雅雅呦

于 2023-03-14 22:05:19 发布

阅读量335

点赞数

文章标签：计算机视觉人工智能目标检测 Powered by 金山文档

本文链接：https://blog.csdn.net/qq_58893031/article/details/129541048

版权

一、摘要

现有的rgb-d显着性检测模型并未明确鼓励RGB和深度实现有效的多模式学习。本文通过相互信息最小化引入了一种新颖的多阶段级联学习框架，以显式地建模RGB图像和深度数据之间的多模态信息。首先将每种模式的特征映射到较低维的特征向量，并采用互信息最小化作为正则化器，以减少来自RGB的外观特征与来自深度的几何特征之间的冗余。然后执行多阶段级联学习，以在网络的每个阶段施加互信息最小化约束。

二、解决的问题

作为多模式学习任务，经过训练的模型应使网络容量内不同模态的联合熵最大化。最大化联合熵也等于互信息的最小化，这阻止了网络关注冗余信息。对RGB图像和深度数据之间的互补信息进行显式建模，通过相互信息最小化引入了多阶段级联学习框架。具体引入互信息最小化作为正则化器，以实现两个主要好处: 1) 显式地建模外观特征和几何特征之间的冗余; 2) 有效地将外观特征和几何特征与互信息最小化约束融合。

主要贡献: 1) 通过互信息最小化设计了一个多级级联学习框架，用于rgb-d显着性检测，以 “显式” 模型RGB图像和深度数据之间的冗余。2) 互信息最小化正则化器可以很容易地扩展到其他多模态学习管道，以对多模态的冗余进行建模。3) 贡献了最大的rgb-d显着性检测数据集，具有15,625标记集和5,000未标记集，以实现完全/弱/无监督的rgb-d显着性检测。4) 出了用于rgb-d显着性检测的新基准，并介绍了用于立体和弱监督的rgb-d显着性检测的基线模型。

三、整体框架结构

将RGB图像和深度馈送到显着性编码器，以使用互信息正则化器项提取每种模式的显着性特征，以使特征彼此不同。然后将每个模式 (za和zg) 的低维特征与原始图像特征 (ea和eg) 融合，以有效地对每个模式的互补信息进行建模，并获得我们的最终预测P。“DenseASPP” 模块是密集atrous空间金字塔池模块，“DA” 是双重注意模块。

在ResNet50网络上构建显著性编码器，该网络包括四个卷积阶段 {s1，s2，s3，s4}。我们在每个sc ∈ {sc}4 c = 1之后增加一个核大小为3 × 3的卷积层，以将sc的通道维数减小到C = 32，并获得特征图 {e1，e2，e3，e4}。RGB显著性编码器模块的最终输出为ea = {e1 a，e2 a，e3 a，e4 a}，深度显著性编码器的输出为eg = {e1 g，e2 g，e3 g，e4 g}。RGB显着性编码器和深度显着性编码器共享相同的网络结构，但权重不相同。

给定来自RGB显着性编码器的输出ea = {e1 a，e2 a，e3 a，e4 a} 和来自深度显着性编码器的eg = {e1 g，e2 g，e3 g，e4 g}，将RGB特征和深度特征都映射到低维特征空间以进行特征嵌入。具体来说，提出了一种多阶段级联学习策略，以在网络的每个阶段执行互补学习。对于较低的阶段，将RGB特征 {ec a}3 c = 1和深度特征 {ec g}3 c = 1提供给两个不同的3 × 3卷积层的 “conv3x3”，以获得RGB分支和深度分支的通道尺寸4 ∗ C的特征图。然后，采用两个完全连接的层 (“fc”) 将通道尺寸4 ∗ C的特征图分别映射到两个不同的低维特征向量 {zc a}3 c = 1和 {zc g}3 c = 1，大小K = 6。采用互补学习相关损失来减少较低阶段的RGB和深度的特征冗余。在最高阶段，首先在空间维度上平铺低维特征向量z4 a和z4g。然后，将它们与其他模式的原始图像特征1连接，分别获得RGB分支和深度分支的4 ∗ C K通道尺寸特征图ra和rg。

获得RGB图像和深度数据的特征嵌入za和zg之后，引入互信息最小化正则化器，以显式地减少这两种模态之间的冗余。基本假设是，良好的外观显着性特征和几何显着性特征对应同时携带公共部分 (语义相关) 和不同属性 (域相关)。互信息MI用于测量熵项之间的差异

其中H(.) 是熵，H(za) 和H(zg) 是边际熵，H(za，zg) 是za和zg的联合熵。直观地，我们有两个潜变量 (或条件熵) 的Kullback-Leibler散度 (KL) 为:

其中

是交叉熵。然后对公式1、公式2、公式3求和，并获得:

给定RGB图像和深度数据，H(za，zg) 是非负的，则可以通过最小化来实现最小化互信息:

直观地，MI(za，zg) 测量当观察到zg时za中不确定性的降低，反之亦然。作为多模式学习任务，每种模式都应该从其他模式中学习任务的一些新属性。通过最小化MI(za，zg)，可以有效地探索两种模态的互补属性。

采用二进制交叉熵损失Lce作为目标函数来训练多阶段级联学习框架，其中互补约束如式所示，将RGB图像的显着特征分布与深度数据的显着特征分布分开。最终的目标函数是:

四、结论

提出了一种基于多阶段级联学习的rgb-d显着性检测框架，该框架对RGB图像和深度数据之间的互补信息进行了显式建模。通过在训练过程中最小化这两种模式之间的相互信息，模型专注于每种模式的不同部分，而不是冗余信息。模型能够更有效地利用多模式信息。此外，引入了最大的rgb-d显着性检测数据集，其中包含五种类型的注释，以促进完全/弱/无监督的rgb-d显着性检测任务的开发。

咦雅雅呦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫