《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

最新推荐文章于 2024-06-03 10:05:46 发布

m_buddy

最新推荐文章于 2024-06-03 10:05:46 发布

阅读量1.9k

点赞数 7

分类专栏： SOD（Salient Object Detection）文章标签： UC-Net

本文链接：https://blog.csdn.net/m_buddy/article/details/111622435

版权

参考代码：UC-Net

1. 概述

导读：这篇文章研究的是RGB-D数据的显著性目标检测问题，其中的D代表的是深度图，可以通过如Kinect之类的深度传感器/深度估计网络等得到。在之前RGB-D显著性目标检测算法中一般将显著性目标当成为决策性的像素点估计问题，因而对于每个输入的样本数据都只会生成一个固定的显著性目标检测结果。其实要是对于显著性目标的结果具有较为明确的判断准则，那么这样的方式本身也没有什么问题。但是关键却是在显著性目标的标注问题上，不同人对同一幅图的显著性目标确定可能会存在差异，这就导致了使用上述算法得到的显著性目标并不是很准确。对此文章将原来的决策性检测问题通过条件变分自动编码器（CVAE）变化为基于概率模型的检测问题，因而可以对于同一张图在latent space上进行采样，从而生成多个不同的显著性目标检测结果，之后通过多数投票的方式保持显著性目标的一致性（salient concensus）。此外，文章通过遮挡之后迭代进行显著性目标检测从而得到一张图的多个显著性目标结果。

通过在RGB图像基础上引入深度图像可以极大提升显著性目标检测的准确度，但是由于人员在标注过程中存在主观判断差异与评判标准模糊，使用传统的显著性目标检测算法可能会存在结果上的歧义问题，因为算法只呈现了一个结果。这篇文章通过CAVE引入概率模型，通过采样得到多个显著性目标的结果，见下图1所示：
在这里插入图片描述
文章的算法会得到多个显著性目标，之后会通过显著性目标一致性（投票机制）得到最后的显著性目标。对于CVAE中的条件部分文章是通过遮挡显著性目标多次进行检测得到的，从而使得对于单张训练图片有多个显著性目标检测结果。此外，由于直接引入深度信息会导致较多的噪声，因而文章还提出了一种深度信息优化网络（depth correction network）得到丰富的语义与几何信息。

2. 方法设计

2.1 整体pipline

使用 $\xi=\{X_i,Y_i\}_{i=1}^N$ 表示训练的数据对，其中 $X_i=\{I_i,D_i\}$ 由RGB图像和深度图像组成的RGB-D数据。文章的整体算法流程见下图所示：
在这里插入图片描述
上面复杂的算法pipline主要由下面的几个子功能模块组成：

1）由先验网络PriorNet和后验网络PosteriorNet组成LatentNet，分别去映射 $X_i$ （对于PriorNet）和数据对 $X_i,Y_i)$ （对于PosteriorNet）得到latent space下的数据 $z_i\in R^K$ ，用来表示两者之间的数据分布；
2）使用 $I_i,D_I$ 输入到DepthCorrectionNet中得到优化之后的深度图像 $D_i^{‘}$ ，用以排除原始深度图像噪声，丰富语义和深度信息；
3）使用 $D_i^{‘},I_i$ 输入到SaliencyNet得到saliency的特征图 $S_i^d$ ；
4）使用在latent space采样得到的 $S_i^s$ 和 $S_i^d$ 通过预测网络PredictionNet得到最后的显著性目标结果；

其测试的时候使用的是在latent space进行多次采样得到多个显著性目标结果，之后使用saliency concensus（多数投票）的方式得到最后的结果，其pipline见下图所示：

在这里插入图片描述

2.2 网络的各组成部分

LatentNet：
文中的CAVE包含三个部分：

1）由PriorNet（由五个卷积层组成）将输入的RGB-D数据映射到先验概率分布 $P_{\theta}(z|X),z\sim\mathcal{N}(\mu,diag(\sigma^2))$ 。其中

最低0.47元/天解锁文章

m_buddy

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

参考代码：UC-Net1. 概述导读：这篇文章研究的是RGB-D数据的显著性目标检测问题，其中的D代表的是深度图，可以通过如Kinect之类的深度传感器/深度估计网络等得到。再之前RGB-D显著性目标检测算法中一般将显著性目标当成为决策性的像素点估计问题，因而对于每个输入的样本数据都只会生成一个固定的显著性目标检测结果。其实要是对于显著性目标的结果具有较为明确的判断准则，那么这样的方式本身也没有什么问题。但是关键却是在显著性目标的标注问题上，不同人对同一幅图的显著性目标确定可能会存在差异，这就导致了使
复制链接

扫一扫