1综述文章_a survey on deep learning architectures for image--CSDN博客

本文链接：https://blog.csdn.net/qq_28223697/article/details/102890912

论文《A Survey on Deep Learning Architectures for Image-based Depth Reconstruction》
发表：Submitted on 14 Jun 2019
作者：Hamid Laga
链接：https://arxiv.org/abs/1906.06113

使用已知或未知摄像机参数从一个或多个图像中估计深度的方法。场景中多台相机捕获到空间相关的图片。场景中移动的单个摄像机生成与时间相关的图像。基于深度学习的重构：推断f使其预测出的深度D’尽可能的接近真实深度D
$\mathcal{L}(\mathbf{I})=d\left(f_{\theta}(\mathbf{I}), D\right)$ $d\left( , \right)$ 表示D，D’之间一个距离度量， $\mathcal{L}$ 为损失函数。
第一类方法：类似传统立体匹配明确学习如何匹配输入图像的像素。对应关系可转换为光流或视差图，进一步转换为深度图。预测变量 f 由三个模块组成：特征提取模块、特征匹配和成本聚合模块以及视差/深度估计模块。第二类方法：基于回归的深度估计，不明确学习匹配函数，直接学习一个函数预测输入图像中每个像素的深度,效果非常一般。用于单个图像或从任意视点拍摄的多个图像深度估计。预测的深度图可以是与输入相同的视点，也可以是新的任意视点。在两种方法之后，可用优化模块或渐进式重构 (新图的到来使得重构进一步完善section 3.1.4) 进一步细化估计深度图。

The pipeline

深度重构过程看成最小化一个能量函数来估计一个 map D(深度图、视差图、光流)
$E(D)=\sum_{x} C\left(x, d_{x}\right)+\sum_{x} \sum_{y \in \mathcal{N}_{x}} E_{s}\left(d_{x}, d_{y}\right)$ $x$ , $y$ 是图像像素， $d_{x}=D\left(x\right)$ 是像素 $x$ 处的深度。 $C\left(x,d_{x}\right)$ 是像素 x 的深度为 $d_{x}$ 时的3D代价volume， $\mathcal{N}_{x}$ 是 $x$ 附近像素集合， $E_{S}$ 是正则化项(平滑,左右一致性)。 $E\left(D\right)$ 为总的代价。双目左图像素 $x = (i, j)$ , $y=(i,j-d_{x})$ 。多视图时 $-$ 可能为 $+$ 。
由4个模块组成 (1)Feature extraction (2) matching cost calculation and aggregation (3) disparity/depth calculation (4) disparity/depth refinement。前两个模块组成代价 volume $C$ ，后两个模块定义正则化项。