[论文精读::MVDE::2014::CVPR]-PatchMatch Based Joint View Selection and Depthmap Estimation

Keep_Slence

已于 2023-07-07 15:14:26 修改

阅读量462

点赞数

文章标签：算法计算机视觉

于 2023-07-07 15:12:30 首次发布

本文链接：https://blog.csdn.net/qq_44628813/article/details/131585456

版权

在这里插入图片描述

原文地址：CVPR-PDF

论文十问：

Q1 论文试图解决什么问题?

输入同一场景的非结构无序图像（往往包含数百张，在一些网络数据中甚至包含光照、像素尺寸不一致的图像）以及相对于世界坐标系的内外参矩阵，得到每张图像的深度图和对应于目标图像的像素级视角选择图（以往的方法对于不适合的视角选择往往直接通过图像级别的选择），进而为三维模型的融合和建模提供基础数据。

Q2 这是否是一个新的问题?

不是。最主要的问题来源于双目立体问题的深度估计模型。双目立体易于极几何建模，但是没有任何冗余的信息来支持遮挡区域的深度信息，因为双目立体视觉的深度估计图一定是有一些不可避免的裂痕的。所以，引入多张图像来恢复遮挡区域的信息就很自然。已有很多的研究人员通过最小匹配损失、马尔可夫随机场优化、基于色彩梯度的概率图模型、隐马尔可夫随机场联合可见性和深度建模等等方法进行多张图的深度估计。

Q3 这篇文章要验证一个什么科学假设?

通过基于块匹配的像素级视角选择和深度估计可以实现较好的多视图深度估计问题（MVDE），依据特殊的概率图建模，可以基于GPU加速推理过程。

Q4 有哪些相关研究? 如何归类? 谁是这一课题在领域内值得关注的研究员?

与三维建模相关的研究：VSLAM和SFM，其中VSLAM是SFM的一种工程化离线的变体，其更加侧重于实时性与定位，而SFM侧重于通过离线的不断优化，恢复较为准确的多张图像的空间相对位置。而MVDE一般被认为是SFM系统的一个补充的系统，即将原本基于SIFT特征点估计的深度对应关系尽可能扩散到图像的每一个有效的像素中。

现有的研究MVDE方法角度来分，主要有基于深度学习的纯模型训练方法、以及基于概率建模的传统推理方法。

Q5 论文中提到的解决方案之关键是什么?

1、依据：正确的深度假设具有空间平滑性
2、基于块匹配建立了单像素块似然函数假设（其中包含深度假设 $\theta$ 和可见度隐变量 $Z$ ）:
$\begin{equation} P(X_l^m|\theta_l,Z_l^m,X_l^{ref}) = \begin{cases} \frac{1} {NA}e^{-\frac{(1-\rho^m_l)}{2\sigma^2}}& \text{if } Z_l^m = 1 \\ \frac{1}{NA}\mathcal{U} & \text{if } Z_l^m = 0 \end{cases} \end{equation}$
3、利用变分推理最大化整图的真实后验概率（MAP）：
$\begin{equation} \begin{aligned} \underset{q(Z,\theta)}{minimize}& KL(q(Z,\theta)||P(Z,\theta|X)) \\ subject\space to& \sum_{Z^m}q_m(Z^m)=1,m=1,...,M. \end{aligned} \end{equation}$
4、算法的步骤和迭代图：
在这里插入图片描述

Q6 论文中的实验是如何设计的?

在这里插入图片描述
将同一场景的多张图像与对应的内外参数作为输入，运行算法，得到像素级视角选择图和目标图像的深度图。

Q7 用于定量评估的数据集是什么? 代码有没有开源?

在这里插入图片描述

定量测试数据集：Strecha datasets (Fountain-P11 and Herzjesu-P9) [On benchmarking camera calibration and multi-view stereo for high resolution imagery. In CVPR, 2008.]

Q8 论文中的实验及结果有没有很好地支持需要验证的科学假设?

论文有必要的消融实验来验证不同构建的作用。
1、像素级视角选择的效果（对比对遮挡鲁棒的最佳K平面扫面算法[Handling occlusions in densemulti-view stereo. In CVPR, 2001.]）
在这里插入图片描述
2、运行时间的对比

3、对比SFM结构的可靠性对算法的影响；
4、对比网络多样数据集的影响；

Q9 这篇论文到底有什么贡献?

1、贡献1：改善推理的方向，同时降低需要估计的参数的数量（3->1），非常有利于GPU并行计算。
2、贡献2：建立深度计算和视角选择的概率图模型，基于变分推理进行优化求解，将原本不可求的全概率分布转换为可求解的似然概率。

Q10 下一步呢? 有什么工作可以继续深入?

1、只能估计深度，缺少法向量的估计；
2、是惰性推理学习，很难应对大量的数据规模；

Keep_Slence

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[论文精读::MVDE::2014::CVPR]-PatchMatch Based Joint View Selection and Depthmap Estimation

与三维建模相关的研究：VSLAM和SFM，其中VSLAM是SFM的一种工程化离线的变体，其更加侧重于实时性与定位，而SFM侧重于通过离线的不断优化，恢复较为准确的多张图像的空间相对位置。输入同一场景的非结构无序图像（往往包含数百张，在一些网络数据中甚至包含光照、像素尺寸不一致的图像）以及相对于世界坐标系的内外参矩阵，得到每张图像的深度图和对应于目标图像的像素级视角选择图（以往的方法对于不适合的视角选择往往直接通过图像级别的选择），进而为三维模型的融合和建模提供基础数据。：建立深度计算和视角选择的。
复制链接

扫一扫