1).网络:
2).损失函数:
- 每个像素的预测深度与实际深度的L1损失:。由于该损失会随深度值的变大而变大,作者使用原始深度值的导数作为深度值,是最大深度值。
- 图像梯度与深度图梯度的L1损失:。
- 图像与深度图的SSIM。
无监督的深度估计一般利用基于对极几何的图像重建损失训练CNNs产生视差图。
1).网络框架:
对偶网络来自Godard,分别输出左右视差图。使用空间变换网络提出的双线性采样方法用视差图重建图像:用左视差图和右图像重建左图像;用右视差图和左图像重建右图像。
2).训练,6项损失(3组):
- 外观匹配损失:重建图像与原图的L1损失和SSIM。
- 视差平滑损失:视差图的平滑损失。
- 左右一致性损失:左右视差图的视差一致性。
网络会输出4个尺度的视差图,对每个尺度都计算这样的损失。这些损失的定义也都来自Godard。
三.序数回归[论文][Caffe][监督][Robust Vision Challange 2018第一名]
1).主要工作:序数回归和多尺度特征。
2).序数回归:
- 把深度估计建模成回归问题然后用最小化均方误差训练网络。这种方法收敛慢且局部效果不好。
- 作者把连续的深度估计离散化,实验证明增距离散(spacing-increasing discretization, SID)优于等距离散(uniform discretization, UD)。
- 网络监督信息是SID策略输出的离散深度值。
3).多尺度特征:
- 重复的空间池化会降低特征图的分辨率,所以现有方法需要用跳跃连接和多层反卷积得到高分辨率深度图。这使网络训练变得复杂,而且计算量大。
- 作者使用DeepLabV3的ASPP模块,并把其中的全局平均池化替换成全图编码器。