论文《A Survey on Deep Learning Architectures for Image-based Depth Reconstruction》
发表:Submitted on 14 Jun 2019
作者:Hamid Laga
链接:https://arxiv.org/abs/1906.06113
使用已知或未知摄像机参数从一个或多个图像中估计深度的方法。场景中多台相机捕获到空间相关的图片。场景中移动的单个摄像机生成与时间相关的图像。基于深度学习的重构:推断f使其预测出的深度D’尽可能的接近真实深度D
L
(
I
)
=
d
(
f
θ
(
I
)
,
D
)
\mathcal{L}(\mathbf{I})=d\left(f_{\theta}(\mathbf{I}), D\right)
L(I)=d(fθ(I),D)
d
(
,
)
d\left( , \right)
d(,)表示D,D’之间一个距离度量,
L
\mathcal{L}
L为损失函数。
第一类方法:类似传统立体匹配明确学习如何匹配输入图像的像素。对应关系可转换为光流或视差图,进一步转换为深度图。预测变量 f 由三个模块组成:特征提取模块、特征匹配和成本聚合模块以及视差/深度估计模块。第二类方法:基于回归的深度估计,不明确学习匹配函数,直接学习一个函数预测输入图像中每个像素的深度,效果非常一般。用于单个图像或从任意视点拍摄的多个图像深度估计。预测的深度图可以是与输入相同的视点,也可以是新的任意视点 。在两种方法之后,可用优化模块或渐进式重构 (新图的到来使得重构进一步完善section 3.1.4) 进一步细化估计深度图。
The pipeline
深度重构过程看成最小化一个能量函数来估计一个 map D(深度图、视差图、光流)
E
(
D
)
=
∑
x
C
(
x
,
d
x
)
+
∑
x
∑
y
∈
N
x
E
s
(
d
x
,
d
y
)
E(D)=\sum_{x} C\left(x, d_{x}\right)+\sum_{x} \sum_{y \in \mathcal{N}_{x}} E_{s}\left(d_{x}, d_{y}\right)
E(D)=x∑C(x,dx)+x∑y∈Nx∑Es(dx,dy)
x
x
x,
y
y
y 是图像像素,
d
x
=
D
(
x
)
d_{x}=D\left(x\right)
dx=D(x) 是像素
x
x
x 处的深度。
C
(
x
,
d
x
)
C\left(x,d_{x}\right)
C(x,dx) 是像素 x 的深度为
d
x
d_{x}
dx 时的3D代价volume,
N
x
\mathcal{N}_{x}
Nx是
x
x
x 附近像素集合,
E
S
E_{S}
ES 是正则化项(平滑,左右一致性)。
E
(
D
)
E\left(D\right)
E(D)为总的代价。双目左图像素
x
=
(
i
,
j
)
x=(i,j)
x=(i,j),
y
=
(
i
,
j
−
d
x
)
y=(i,j-d_{x})
y=(i,j−dx)。多视图时
−
-
−可能为
+
+
+。
由4个模块组成 (1)Feature extraction (2) matching cost calculation and aggregation (3) disparity/depth calculation (4) disparity/depth refinement。前两个模块组成代价 volume
C
C
C,后两个模块定义正则化项。