深度学习目前已经进入快速发展的时期。在深度学习之前,计算机视觉领域都是采用手工的方式提取图像特征,这些特征都比较明显。深度学习主要代表就是神经网络,尤其是卷积神经网络在数字图像处理中表现出了优越的性能。这主要是因为神经网络可以提取图像中的深层次特征,通过神经网络端到端的学习可以使神经网络自动去学习计算机需要关注的特征。
基于深度学习的深度估计以及相机自我运动估计,是使用卷积神经网络进行端到端的学习。深度估计与相机自我运动估计通常分为两个不同的网络进行端到端的学习。其中深度估计的网络采用典型的编解码结构,网络输出与输入图像分辨率一致的深度图。相机自我运动也就是位姿估计网络,通常采用两帧或者多帧图像作为网络的输入,输出为六自由度的位姿。这两个网络可以耦合在一起联合进行端到端的训练。同时根据训练的方式,分为有监督、半监督以及自监督等方式。
A. 卷积神经网络
卷积神经网络是一种多层次的神经网络。主要用于数字图像处理。卷积神经网络主要是通过一系列的卷积核对图像不断地降低维度,同时提取图中深层次的特征信息的过程。
一个典型的卷积神经网络一般是由卷积层、池化层以及全连接层组成。目前涌现出的很多新工作中一般都不再使用池化层。卷积层与池化层的配合可以逐层地提取图像的特征。随着卷积神经网络的深度不断地加深,卷积所提取的图像特征会越发抽象。如图1所示,随着卷积不断地加深,网络提取到的信息由浅层的细节信息到深层的语义信息进行变化。
图1 卷积神经网络可视化示意图
卷积的主要是利用局部的感受野,利用一个滑动窗口提取图像中的特征。类似于图像的滤波操作,不过卷积核中权重是不断更新的。传统的卷积神经网络在不断提取图像特征的过程中压缩图像的分辨率进而提取到深层的语义信息进行分类。目前卷积神经网络还可以进行图像的语义分割以及深度图估计等。这需要反卷积层将卷积层压缩的特征图还原回原始分辨率的图像获得图像分割或者深度估计的结果。
B. 有监督或半监督的深度图估计
有监督或者半监督的深度估计是采用深度图的真实值,或者通过某些方法比如双目相机稀疏雷达等相对可靠的半稠密真实数据。因此单目深度估计可以看作是一个回归问题。从单个深度图像设计神经网络来预测深度。利用预测深度图和实际深度图之间的差异来监督网络的训练。深度网络通过近似真值的方法来学习场景的深度。其数学形式为:
(1)
其中 表示深度图的坐标, 和 分别是预测的稠密深度图和原始深度图在 坐标处的深度值。
C. 自监督的深度图与自我运动估计
无监督学习主要是利用相邻关键帧之间的重投影误差进行神经网络的反向传播。
通过深度和位姿,将参考图像投影到目标图像的透视下,通过最小化目标图像和合成图像之间的光度误差,共同优化深度和自我运动在无监督方法的训练过程中,将帧间的几何约束作为监督信号,而不是使用代价昂贵的真值。