《Robust Consistent Video Depth Estimation》论文笔记

m_buddy

已于 2022-03-04 00:01:36 修改

阅读量5.4k

点赞数

分类专栏： # Depth Estimation 文章标签： video depth

于 2021-07-02 00:49:02 首次发布

本文链接：https://blog.csdn.net/m_buddy/article/details/118400587

版权

本文详细解读了《Robust Consistent Video Depth Estimation》论文，介绍了一种在单目视频中估计一致深度图和相机位姿的算法。通过MiDas获取初始深度，Ceres Library计算初始位姿，然后进行在线finetune优化，结合几何感知深度滤波，确保深度稳定和高频细节。相比前作，该方法不需要预先输入位姿信息，同时预测位姿并优化深度估计。

摘要由CSDN通过智能技术生成

主页与代码地址：robust_cvd

1. 概述

导读：这篇文章的目的是为了在视频场景下生成稳定的深度估计结果，其提出的算法可以在一个单目视频中估计出一致的深度图和相机位姿。文章首先会使用MiDas为视频中的单帧图像做初始深度估计（主要用于提供深度scale参数），以及使用Ceres Library上计算相机的初始位姿信息。之后再在输入的视频序列上使用在线finetune形式交替进行深度估计结果与相机位姿优化。在上面的finetune优化中使用到了一个几何优化过程去生成稳定平滑地相机移动轨迹（表征为相机关联的内外参数）与深度细节保存完好且稳定的深度结果。在上面提到的相机位姿优化与最后深度估计生成过程包含两个互补的技术（分别对低频区域和高频区域）：
1）使用灵活的变化样条函数去实现图像内低频区域的区块对齐；
2）使用一个几何感知深度滤波器在不同的视频帧上去对齐高频的细节部分。
相比之前的方法（《Consistent Video Depth Estimation》），文章并不需要相机的位姿信息作为输入，在文章算法中对其进行预测。同时文章方法的设计是源自于上面论文的。

2. 方法设计

2.1 算法Pipline

文章的视频深度估计pipeline见下图所示：
在这里插入图片描述
从图中可以看到文章的pipeline主要划分为个部分：

1）使用MiDas作为单帧深度估计方法，从而估计得到单帧图像的初始深度信息。使用Ceres Library从视频序列中去计算初始相机位姿；
2）使用finetune训练的形式从输入的视频序列中交替优化深度估计结果与相机位姿信息，在相机位姿估计过程中使用样条差值的形式实现深度对齐，从而使得相机位姿估计的结果稳定；
3）使用几何感知的深度滤波器在多帧之间进行滤波保留和优化深度估计中的高频信息；

2.2 准备工作

输入一个视频序列之后，除了上述中提到会使用MiDas计算一个初始深度和相机位姿之外，还会对视频进行不同间隔的采样得到一个视频帧对（图像对）的集合，其在视频序列上进行采样可以使用下面的式子进行描述：
$P=\{(i,j)\mid |i-j|=k,i\ mod\ k=0,k=1,2,4,\dots\}$
也就是下图表述的间隔采样的形式：
在这里插入图片描述
对于一个采样到的图像对 $(i,j)\in P$ 文章会在其上使用RAFT计算光流 $f_{i\rightarrow j}$ ，之后通过前后光流的一致性得到二值掩膜 $m_{i\rightarrow j}^{flow}$ 。使用Mask RCNN取出图像中可能存在移动的目标（如行人/车辆等）掩膜 $m_i^{dyn}$ 。

接下来的过程是在给定视频序列基础上进行finetune（交替优化深度预测与相机位姿估计），从而在视频上得到深度一致的预测结果。其中深度估计和相机位姿式交替进行的，并且在相机位姿估计中增加了深度对齐，增加了稳定性。图3中的（d）是使用SFM预测相机位姿的结果，图3中（c）是使用深度信息去反推相机位姿的结果，没有深度对齐会对相机位姿的准确推断带来很大干扰。对此，文章将finetune中的交替优化过程参见下文。
在这里插入图片描述

2.3 深度估计优化

2.3.1 光度构建约束

这里使用 $s_i$ 表示从MiDas中计算来的scale参数，将一个像素使用齐次坐标的形式表示 $\bar{p}=[p_x,p_y,1]^T$ ， $d_i$ 是深度估计模型输出的深度结果。则将其映射到3D的相机坐标可以表示为：
$c_i(p)=s_id_i(p)\bar{p}$
之后通过帧间的变换关系进行帧间的变换：
$c_{i\rightarrow j}(p)=K_jR_j^T(R_iK_i^{-1}c_i(p)+t_i-t_j)$