单目图像深度估计 - 迁移篇:Depth Extraction from Video Using Non-parametric Sampling


目录

  1. 入门篇:图像深度估计相关总结
  2. 应用篇:Learning to be a Depth Camera
  3. 尺度篇:Make3D
  4. 迁移篇:Depth Extraction from Video Using Non-parametric Sampling
  5. 深度篇:David Eigen
  6. 无监督篇:Left-Right Consistency & Ego Motion
  7. 相对深度篇:Depth in the Wild & Size to Depth
  8. SLAM辅助篇:MegaDepth
  9. 方法比较篇:Evaluation of CNN-based Methods

单目图像深度估计 - 迁移篇:Depth Extraction from Video Using Non-parametric Sampling

Depth Extraction from Video Using Non-parametric Sampling
第四篇写一下Depth Extraction from Video Using Non-parametric Sampling这篇文章中的Depth Transfer方法。

不同于其他主流方法,Depth Transfer并没有训练出特定的识别模型,而是通过把有标签数据与待预测样本进行点到点的对应,然后将深度信息进行迁移,形成深度估计结果。虽然诸如处理时间长、受训练集影响大等缺点十分显而易见,但这种思路仍然让人眼前一亮。其实如何能更好的利用有标签数据也是值得研究的方向,尤其是现在,深度网络的可解释性不高,我们不能确定拿到黑盒子里去训练一定能对宝贵的有标签数据进行有效利用,那不如换个方法。

言归正传,文章中提到Depth Transfer方法既能应用于单幅图像的深度估计,也能应用于视频的深度估计。显然,视频比图像多了时间前后文关系,因此文章的亮点就是如何利用有标签数据集和视频的前后文关系对图像的深度进行估计。

-

Fig.1

如Fig.1所示,算法主要分为三个步骤:

  1. 在RGBD数据集中寻找与input相似的多幅图片
  2. 通过将选出的相似图片(candidates)形变使其与input对应,得到input的初步深度估计结果
  3. 对step2的结果进行全局优化,得到最终pixel level的深度估计
2. 图像深度估计

相似的场景会对应相似的深度,Depth Transfer方法建立在这个基础之上。

candidate的选取

  1. 首先,计算input及有标签数据集中每幅图像(或视频中的每帧图像)的GIST特征和光流特征信息;
  2. 然后,将input与数据集中的图像进行比较,选取K(=7)个最接近的匹配作为candidate。在这个过程中,限制数据集中同一video内的帧只能选取一个,以保证选出来的candidate有一定的变化;
  3. 最后,调用SIFT flow算法将input与candidate进行像素级的对应。SIFT flow算法为每个candidata产生一个对应方法(wraping function),wraping function将candidate的像素位置与input的像素位置相对应。

优化深度估计
通过选取和wraping,为input产生了K(candidate个数)个像素级的深度估计结果,接下来讲解如何利用所有预测结果对深度估计进行优化。

Eq1
Eq.1

Eq.1为Depth Transfer方法的Loss,通过最小化Loss可以得到最优估计。其中L为input图像,D为深度估计结果,Z为概率归一化常数,alpha=10,beta=0.5。
E(D)包含三部分,其中Et表示数据特性,Es表示平滑特性,Ep表示数据集特性。

Eq2
Eq.2

Et可用来衡量深度估计D与每个wrap后的candidate深度的相似性,其中Phi为L1范式。公式第二部分是为了最小化x,y两个方向的梯度差异。
在这里插入图片描述
Eq.3

在这里插入图片描述
Eq.4

Eq.3和Eq.4分别为Es和Ep的计算方法,其中Prior P为数据集中全部图像的均值。

3. 视频深度估计

视频比单幅图像多了时间前后文关系,因此在对视频的深度估计进行优化时,在Eq.1的基础上增加了Ec和Em两部分,以保证:

  1. 物体深度在时间上是连续的;
  2. 运动物体的深度与其接地点一致。

5

Eq.56

Eq.6
Eq7
Eq.7

其中,Ec为时序关系,Em为运动线索。通过计算同一时间序列上有前后关系的每两张图片的光流变化控制其时序连续性。
同时,对视频中的运动物体进行检测提取并对其进行接地约束(运动物体与地面接触),在此过程中通过判断pixel和背景的差别来检测运动的物体。

4. 总结和思考

Depth Transfer的缺点是处理时间较长(每帧图片需要1分钟)并且受有标签数据集影响大(当数据集包含较多图像时搜索时间成倍增长),优点是对运动物体的深度估计有很好的效果,因此比较适用于电影2D转3D等主要物体比较明确的场景。
这篇文章非常长,因为包括了方法的介绍、数据集的介绍以及非常丰富的实验对比,还有很长的附加文档。之所以挑出这篇来写,是因为我在那么多深度网络的图像处理论文里总觉得自己要迷失了,总是思考一直对一个黑盒子进行微调到底是不是正确的方法,而这片文章正好给了一个全新的思路。有时候规律是潜藏的,我们没有发现之前总觉得它不存在,假若我们的生活场景能够分解成特定的几种模式的话,只要用比较简单的寻找-对应就可以进行一切估计了。

[1] Karsch K, Liu C, Kang S B. Depth Extraction from Video Using Non-parametric Sampling[C]// European Conference on Computer Vision. Springer, Berlin, Heidelberg, 2012:775-788.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值