1综述文章

论文《A Survey on Deep Learning Architectures for Image-based Depth Reconstruction》
发表:Submitted on 14 Jun 2019
作者:Hamid Laga
链接:https://arxiv.org/abs/1906.06113

使用已知或未知摄像机参数从一个或多个图像中估计深度的方法。场景中多台相机捕获到空间相关的图片。场景中移动的单个摄像机生成与时间相关的图像。基于深度学习的重构:推断f使其预测出的深度D’尽可能的接近真实深度D
L ( I ) = d ( f θ ( I ) , D ) \mathcal{L}(\mathbf{I})=d\left(f_{\theta}(\mathbf{I}), D\right) L(I)=d(fθ(I),D) d ( , ) d\left( , \right) d(,)表示D,D’之间一个距离度量, L \mathcal{L} L为损失函数。
第一类方法:类似传统立体匹配明确学习如何匹配输入图像的像素。对应关系可转换为光流或视差图,进一步转换为深度图。预测变量 f 由三个模块组成:特征提取模块、特征匹配和成本聚合模块以及视差/深度估计模块。第二类方法:基于回归的深度估计,不明确学习匹配函数,直接学习一个函数预测输入图像中每个像素的深度,效果非常一般。用于单个图像或从任意视点拍摄的多个图像深度估计。预测的深度图可以是与输入相同的视点,也可以是新的任意视点 。在两种方法之后,可用优化模块或渐进式重构 (新图的到来使得重构进一步完善section 3.1.4) 进一步细化估计深度图。

The pipeline

深度重构过程看成最小化一个能量函数来估计一个 map D(深度图、视差图、光流)
E ( D ) = ∑ x C ( x , d x ) + ∑ x ∑ y ∈ N x E s ( d x , d y ) E(D)=\sum_{x} C\left(x, d_{x}\right)+\sum_{x} \sum_{y \in \mathcal{N}_{x}} E_{s}\left(d_{x}, d_{y}\right) E(D)=xC(x,dx)+xyNxEs(dx,dy) x x x, y y y 是图像像素, d x = D ( x ) d_{x}=D\left(x\right) dx=D(x) 是像素 x x x 处的深度。 C ( x , d x ) C\left(x,d_{x}\right) C(x,dx) 是像素 x 的深度为 d x d_{x} dx 时的3D代价volume, N x \mathcal{N}_{x} Nx x x x 附近像素集合, E S E_{S} ES 是正则化项(平滑,左右一致性)。 E ( D ) E\left(D\right) E(D)为总的代价。双目左图像素 x = ( i , j ) x=(i,j) x=(i,j), y = ( i , j − d x ) y=(i,j-d_{x}) y=(i,jdx)。多视图时 − - 可能为 + + +
由4个模块组成 (1)Feature extraction (2) matching cost calculation and aggregation (3) disparity/depth calculation (4) disparity/depth refinement。前两个模块组成代价 volume C C C,后两个模块定义正则化项。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值