SIGGRAPH2020 :Consistent Video Depth Estimation

论文:添加链接描述

摘要

我们提出了一种算法,可为单目视频中的所有像素重建密集的、几何上一致的深度。我们利用传统的“从运动构造”重建来对视频中的像素建立几何约束。与经典重建中的临时先验不同,我们使用基于学习的先验,即为每个单个图像深度估计训练的卷积神经网络。在测试时,我们对该网络进行了微调,以满足特定输入视频的几何约束,同时保留其在视频中受约束较少的部分中合成合理深度细节的能力。我们通过定量验证表明,与以前的单目重建方法相比,我们的方法可实现更高的精度和更高的几何一致性。在视觉上,我们的结果更稳定,我们的算法可以以中等程度的动态运动处理具有挑战性的手持捕获输入视频。

贡献

1、Overview
我们的方法将单目视频作为输入,并估计每一帧的相机姿态以及密集的、几何上一致的深度图。(几何一致性不仅意味着深度图不会随时间闪烁,而且还意味着所有深度图都相互一致。也就是说,我们可以通过像素的深度和相机姿势来投影像素。
随便捕获地输入视频具有许多特征,这些特征对于深度重建来说是具有挑战性的。由于通常是未经校准的手持摄像机捕获视频,因此视频会出现运动模糊滚动快门变形不良的照明条件可能会导致噪声水平增加和额外的模糊。而且这些视频通常包含动态移动的对象,打破了许多为静态场景设计的重建系统的核心假设。
1、传统重建方法:在场景中有问题的部分,会产生“空洞”。
2、基于学习的方法:很大的解决了“空洞”问题,但会产生几何不一致。
3、我们的方法结合了上面两种方法:利用现有的单目深度估计网络,用于一般彩色图像合成合理(但不一致)的深度,然后用传统的重建方法,使用从视频中提取的几何约束来微调网络。包含两个步骤:
预处理
(1)相机配准
我们先用COLMAP(一个软件)估计了每一帧的内部相机参数Ki和外部相机参数(Ri,ti),以及一个深度图在这里插入图片描述

因为动态对象在重建过程中经常有问题,我们应用了Mask R-CNN将任务细分为每个帧,并抑制这些区域中的特征提取(COLMAP可以做到)
(2)维度校准
将SfM的规模和基于学习的重构进行匹配,预测出ti,对ti进行更新
(3)帧采样
让帧进行配对,产生帧对
(4)光流估计
对于所有帧对,我们需要计算一个密集的光流场
因为当帧对尽可能对齐时光流估计效果最好,所以我们首先,使用单应变形对齐帧,以消除两个帧之间的主要运动(如相机旋转)
然后,使用FlowNet2计算对齐框架之间的光流。考虑到运动对象和遮挡(他们不满足几何约束),我们用前向一致性检查并删除误差大于1个像素的像素。

输入视频的测试时间训练
(1)几何损失
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值