摘要:同时学习深度、自我运动、物体运动、和相机内参来自单目视贫,仅仅使用视频中相邻帧之间的一致性来监督。几个创新点:我们几何的、可微的解决遮挡,直接使用深度图,我们引入随机层归一化,我们解释物体相对于场景的运动。我们是第一个学习相机内参的方法,包括畸变。
Preliminaries:
z′p′ = KRK^(-1)zp + Kt
p:position z:depth R、T外参
Method:
1.一个运动估计网络,估计相机运动,每个像素相对于背景的运动,相机内参包括焦距、偏移和失真。
2.一个深度估计网络。通过施加帧之间一致性的损失,网络同时学习深度、运动场和相机内参。
3.根据估计的深度图几何地估计遮挡,而且仅把帧间一致性损失放到应用在无遮挡的像素上。
4.利用分割、目标检测网络估计运动物体。
网络:ResNet-18
损失:。。。
Occlusion-aware consistency:
遮挡的发生——深度不一致。
颜色和深度一致性需要应用在重构的图像的可见部分。
获知遮挡物体的方法:仅当warp到的图像上像素点的深度z′R ≤ zL或者z′L ≤ zR时,将光度误差和几何误差应用到该像素。也就是只考虑源图像的深度图在前面的像素点。
正则化:训练中的一些方法。以及,运动物体的处理方式。
本文中假设R是固定的,也就是说每帧之间只存在平移。使用一个可能移动的掩码m(x, y)描述了物体运动:
t(x, y) = t0 + m(x, y)δt(x, y),
其中t0时背景运动,δt(x, y)是残余运动(基于运动物体),m(x, y)由目标检测粗糙的获得。
今晚看论文,看他具体是怎么搞的