接纪录2
多尺度估计
由于双线性采样的梯度locality,和阻止训练对象在局部最小卡住,现存的模型使用多尺度深度估计和图像重建。这里,总的损失是decoder中每个尺度的个体损失的结合。两个文献计算图像的光度损失在每个decoder层的这样的分辨率上。我们观察到这个有趋势去制造空洞在大的低纹理的区域在中间的低分辨率的深度图中,同时产生纹理复制的伪影(深度图像上的细节错误的由颜色图像转移过来de )。空洞在深度图中会在低分辨率低温里的区域发生,那里的光度误差是模糊的。这个使深度估计网络的任务变复杂了,现在导致预测错误的深度。
受到立体视觉重建的启发,我们提出一个改进到这种多尺度形式,其中我们就视察图像和彩色图像的分辨率来计算重投影误差。不是计算光度误差在摩棱两可的低分辨率图像,我们首先上采样低分辨率的深度图(从中间层)到输入图像的分辨率,然后重投影,重采样,并且计算误差pe在这个高输入分辨率。这个过程与匹配补丁相似,因为低分辨率视差值将对图像warping一整块补丁的像素在高分辨率图像负责(低分辨率一个像素对应高分辨率一块,那么它的一个视差值在warping过程中对高分辨率图像的一整块负责)。这个有效地约束了深度图在每个尺度来工作达到同样的目标比如重建高分辨率目标图像尽可能的准确。
最终的训练损失
我们结合我们的每个像素光滑度和掩蔽的光度损失:
L = μLp+λLs
并且平均每个像素、尺度、批。
3.3额外的考虑
我们的深度估计网络是基于Unet结构,比如一个编码器解码器网络,带着跳跃连接。使得我们来代表深度抽象特征和局部信息。我们使用resnet18作为encoder由11兆参数&#