论文笔记：Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue（无监督深度预测系列1：naive方法）

最新推荐文章于 2022-05-02 22:20:42 发布

snoopy_21

最新推荐文章于 2022-05-02 22:20:42 发布

阅读量1.1k

点赞数 3

分类专栏：深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_29598161/article/details/106773205

版权

深度学习同时被 2 个专栏收录

50 篇文章 7 订阅

订阅专栏

计算机视觉

35 篇文章 9 订阅

订阅专栏

一、基本信息

标题：Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue
时间：2016
论文领域：深度预测、深度学习
引用格式：Garg R, BG V K, Carneiro G, et al. Unsupervised cnn for single view depth estimation: Geometry to the rescue[C]//European Conference on Computer Vision. Springer, Cham, 2016: 740-756.

二、研究背景

老生常谈问题：需要标签数据，户外获取深度昂贵，所以提出本文无监督的CNN单视图深度预测
监督学习CNN方法：使用均方根RMS计算损失
合成数据：难以估计真实世界

三、创新点

原理

在这里插入图片描述
视差公式：
$x-b=\frac{z}{f} * x_{r} ; x=\frac{z}{f} * x_{l} \Rightarrow\left(x_{l}-x_{r}\right)=\frac{f * b}{z}$
令：
$d=\frac{f * b}{z}$
由此可得：
$d=x_{l}-x_{r} \Rightarrow x_{l}=d+x_{r}$
假设CNN可以预测深度视差（这里预测右图）：
$F\left(x_{r}\right)=d_x$
那么就可以用预测视差加上右图来合成左图 $I_w$ （输入的右图为 $I_r$ ）：
$I_w = I_{r}\left(F\left(x_{r}\right)+x_{r}\right)$
用预测的左图减去真实的左图就得到损失函数：
$L = (I_w - I_l)^2$
预测到视差d，同时又知道f和b，就可以得到深度z

损失函数

本文损失函数：
$E_{r e c o n s}^{i}=\int_{\Omega}\left\|I_{w}^{i}(x)-I_{1}^{i}(x)\right\|^{2} d x=\int_{\Omega}\left\|I_{2}^{i}(x+\underbrace{D^{i}(x)}_{f B / d^{i}(x)})-I_{1}^{i}(x)\right\|^{2} d x$
上面d为预测的深度，f和B预设， $\left\{I_{1}^{i}, I_{2}^{i}\right\}$ 为输入的左右2张图。

在这里插入图片描述
上图用左图 $I_1$ 预测视差D，然后用右图加上这个视差来合成图（其实就是预测左图） $I_w$ ，计算损失，为啥是在右图 $I_2$ 加左图的预测 $D$ 视差呢？这其实叫做synthesizing a backward warp image $I_w)$ ，下面解释。

backward warp

在这里插入图片描述

假如用左图预测的视差d加上左图，得到的合成图像存在以下问题：
多个点可能映射到同一个点p->q
而在 $I^{'}$ 中有可能有空洞
所以换个思路，用右图减去左图预测的视差d，这是合成图像是用来预测左图的，那么损失也可以通过这个合成图像和左图来得到，这么做解决了上述问题，因为预测图的目标是用来预测左图，和真实左图对比，能够更好学习（解释还不是很清楚）。