[论文精读::MVDE::2014::CVPR]-PatchMatch Based Joint View Selection and Depthmap Estimation

在这里插入图片描述

原文地址:CVPR-PDF

论文十问:

Q1 论文试图解决什么问题?

输入同一场景的非结构无序图像(往往包含数百张,在一些网络数据中甚至包含光照、像素尺寸不一致的图像)以及相对于世界坐标系的内外参矩阵,得到每张图像的深度图和对应于目标图像的像素级视角选择图(以往的方法对于不适合的视角选择往往直接通过图像级别的选择),进而为三维模型的融合和建模提供基础数据。

Q2 这是否是一个新的问题?

不是。最主要的问题来源于双目立体问题的深度估计模型。双目立体易于极几何建模,但是没有任何冗余的信息来支持遮挡区域的深度信息,因为双目立体视觉的深度估计图一定是有一些不可避免的裂痕的。所以,引入多张图像来恢复遮挡区域的信息就很自然。已有很多的研究人员通过最小匹配损失、马尔可夫随机场优化、基于色彩梯度的概率图模型、隐马尔可夫随机场联合可见性和深度建模等等方法进行多张图的深度估计。

Q3 这篇文章要验证一个什么科学假设?

通过基于块匹配的像素级视角选择和深度估计可以实现较好的多视图深度估计问题(MVDE),依据特殊的概率图建模,可以基于GPU加速推理过程。

Q4 有哪些相关研究? 如何归类? 谁是这一课题在领域内值得关注的研究员?

与三维建模相关的研究:VSLAM和SFM,其中VSLAM是SFM的一种工程化离线的变体,其更加侧重于实时性与定位,而SFM侧重于通过离线的不断优化,恢复较为准确的多张图像的空间相对位置。而MVDE一般被认为是SFM系统的一个补充的系统,即将原本基于SIFT特征点估计的深度对应关系尽可能扩散到图像的每一个有效的像素中。

现有的研究MVDE方法角度来分,主要有基于深度学习的纯模型训练方法、以及基于概率建模的传统推理方法。

Q5 论文中提到的解决方案之关键是什么?

1、依据:正确的深度假设具有空间平滑性
2、基于块匹配建立了单像素块似然函数假设(其中包含深度假设 θ \theta θ和可见度隐变量 Z Z Z):
P ( X l m ∣ θ l , Z l m , X l r e f ) = { 1 N A e − ( 1 − ρ l m ) 2 σ 2 if  Z l m = 1 1 N A U if  Z l m = 0 \begin{equation} P(X_l^m|\theta_l,Z_l^m,X_l^{ref}) = \begin{cases} \frac{1} {NA}e^{-\frac{(1-\rho^m_l)}{2\sigma^2}}& \text{if } Z_l^m = 1 \\ \frac{1}{NA}\mathcal{U} & \text{if } Z_l^m = 0 \end{cases} \end{equation} P(Xlmθl,Zlm,Xlref)={NA1e2σ2(1ρlm)NA1Uif Zlm=1if Zlm=0
3、利用变分推理最大化整图的真实后验概率(MAP):
m i n i m i z e q ( Z , θ ) K L ( q ( Z , θ ) ∣ ∣ P ( Z , θ ∣ X ) ) s u b j e c t   t o ∑ Z m q m ( Z m ) = 1 , m = 1 , . . . , M . \begin{equation} \begin{aligned} \underset{q(Z,\theta)}{minimize}& KL(q(Z,\theta)||P(Z,\theta|X)) \\ subject\space to& \sum_{Z^m}q_m(Z^m)=1,m=1,...,M. \end{aligned} \end{equation} q(Z,θ)minimizesubject toKL(q(Z,θ)∣∣P(Z,θX))Zmqm(Zm)=1,m=1,...,M.
4、算法的步骤迭代图
在这里插入图片描述
在这里插入图片描述

Q6 论文中的实验是如何设计的?

在这里插入图片描述
将同一场景的多张图像与对应的内外参数作为输入,运行算法,得到像素级视角选择图目标图像的深度图

Q7 用于定量评估的数据集是什么? 代码有没有开源?

在这里插入图片描述

定量测试数据集:Strecha datasets (Fountain-P11 and Herzjesu-P9) [On benchmarking camera calibration and multi-view stereo for high resolution imagery. In CVPR, 2008.]

Q8 论文中的实验及结果有没有很好地支持需要验证的科学假设?

论文有必要的消融实验来验证不同构建的作用。
1、像素级视角选择的效果(对比对遮挡鲁棒的最佳K平面扫面算法[Handling occlusions in densemulti-view stereo. In CVPR, 2001.])
在这里插入图片描述
2、运行时间的对比
在这里插入图片描述
3、对比SFM结构的可靠性对算法的影响;
4、对比网络多样数据集的影响;

Q9 这篇论文到底有什么贡献?

1、贡献1:改善推理的方向,同时降低需要估计的参数的数量(3->1),非常有利于GPU并行计算。
2、贡献2:建立深度计算和视角选择的概率图模型,基于变分推理进行优化求解,将原本不可求的全概率分布转换为可求解的似然概率

Q10 下一步呢? 有什么工作可以继续深入?

1、只能估计深度,缺少法向量的估计;
2、是惰性推理学习,很难应对大量的数据规模;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值