论文阅读笔记-Unsupervised Learning of Depth and Ego-Motion from Video

最新推荐文章于 2023-08-29 18:26:29 发布

Homur4_

最新推荐文章于 2023-08-29 18:26:29 发布

阅读量116

点赞数

分类专栏：深度估计文章标签：论文阅读笔记计算机视觉

本文链接：https://blog.csdn.net/qq_45723357/article/details/131167812

版权

深度估计专栏收录该内容

2 篇文章

订阅专栏

该论文提出了一种利用视频中相邻帧的视角合成进行无监督深度和相机位姿估计的方法。通过深度和相机位姿网络，处理动态物体和遮蔽问题，并引入了解释性掩模。此外，使用二阶导数的L1正则化处理低纹理区域。尽管存在对动态物体处理的局限性，但这种方法为单目深度估计开辟了新的途径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读笔记-Unsupervised Learning of Depth and Ego-Motion from Video

1 方法
2 结论

原论文链接
arXiv Unsupervised Learning of Depth and Ego-Motion from Video
CVPR 2017 open access Unsupervised Learning of Depth and Ego-Motion from Video

据我所知，这是第一篇使用视频来进行无监督单目深度估计学习的论文。论文主要贡献是：利用视频中相邻两帧的视角合成作为监督信号来进行深度估计和相机位姿估计的训练。(所以后面也有人管这叫自监督学习。)

本博客仅为个人理解，推荐阅读原文，原文写得也非常清楚。

1 方法

在开头提到过利用视频中相邻两帧的视角合成作为监督信号来进行深度估计和相机位姿估计的训练是本文主要的贡献。

本章将详细说明该方法如何将相邻帧的视角合成作为监督信号，作者如何处理违背假设和视角合成没有意义的地方。

需要注意的是：本文的方法假设相邻帧之间的场景变化只受相机变化的影响，也就是说，视频中的运动物体会对本文的方法造成比较大的影响。

1.1 将视角合成作为监督信号

将视角合成作为监督信号的主要过程见图1，作者将视频中的一帧 $I_t$ 作为目标帧，也就是目标视角。然后将 $I_t$ 相邻的图像 $I_{t-1}$ 和 $I_{t+1}$ 作为源帧/源视角 $I_{s}$ 。
首先将目标图像 $I_t$ 经过深度估计网络得到对应的深度图 $\hat{D}_{t}$ ，将目标图像 $I_t$ 分别和源图像 $I_{s}$ 作为相机位姿估计网络的输入得到相对相机位姿 $\hat{T}_{t\rightarrow s}$ 。然后将利用目标图像深度图 $\hat{D}_{t}$ ，相机的内外参将目标图像 $I_{t}$ 投影弯曲到目标图像的平面上。投影弯曲的过程见图2。投影(Project)的过程主要通过下面的公式(1)来进行。
$\begin{align} p_{s} \sim K\hat{T}_{t\rightarrow s}\hat{D}_{t}(p_{t})K^{-1}p_{t} \end{align}$
经过投影之后，利用投影位置附近的四个像素的值进行可微双线性采样(differentiable bilinear sampling)，采样后 $\hat{I}_{s}$ 上 $p_{t}$ 位置的值为
$\begin{align} \hat{I}_{s}(p_{t}) = I_{s}(p_{s}) = \sum_{i\in \{t,b\}, j\in \{l,r\}}w^{ij}I_{s}(p_{s}^{ij}) \end{align}$
其中 $\sum_{i,j}w^{ij}=1$ ， $t, b, l, r$ 分别表示 $t o p, b o tt o m, l e f t, r i g h t$ 。
得到了变化后的源图像 $\hat{I}_s$ 后，利用目标图像和源图像计算损失 $\mathcal{L}_{vs}$ ，这与后面利用SSIM来计算该损失不同，这里直接用L1距离来计算。
$\begin{align} \mathcal{L}_{vs} = \sum_{<I_{1},...,I_{N}>\in \mathcal S}\sum_{p}|I_{t}(p)-\hat{I}_{s}(p)| \end{align}$
图1 将视角合成作为监督信号

图1 将视角合成作为监督信号的总览

图2 目标图像的投影弯曲过程

图2 目标图像的投影弯曲过程

1.2 处理违背假设的部分

以下三种情况违背了作者最初的假设：

场景中包含有运动的物体
源视角和目标视角之间有遮蔽和未遮蔽的变化，举个例子：目标视角中原本没有被遮蔽的物体，在源视角被遮蔽了。
物体表面不符合Lambertian

为处理这几种情况，作者在相机位姿估计网络中添加了解释性网络，解释性网络输出解释性掩模 $\hat{E}_{s}$ 。并利用解释性掩模 $\hat{E}_{s}$ 来修改损失 $\mathcal{L}_{vs}$ 。
$\begin{align} \mathcal{L}_{vs} = \sum_{<I_{1},...,I_{N}>\in \mathcal S}\sum_{p}\hat{E}_{s}(p)|I_{t}(p)-\hat{I}_{s}(p)| \end{align}$
但是这种情况下，为了最小化损失 $\mathcal{L}_{vs}$ ，网络会将解释性掩模 $\hat{E}_{s}$ 预测为0，所以作者增加了正则化项 $\mathcal{L}_{reg}(\hat{E}_{s})$ 来通过最小化解释性掩模 $\hat{E}_{s}$ 与1的交叉熵损失来鼓励网络不将解释性掩模 $\hat{E}_{s}$ 预测为0。