depth and motion learning:Unsupervised Monocular Depth Learning in Dynamic Scenes(2020),是Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unknown Cameras的第二版,也是谷歌出品。
摘要:联合训练深度、自我运动和物体相对于场景的密集3D平移场。而且仅用光度一致性监督。
这个明显严重欠定的问题可以通过强加以下关于3D平移场的先验知识来规范化:稀疏的、刚性的、分段常数。研究表明仅用这种先验知识足以训练。
网络结构:
一个网络估计3D平移场(来自一对帧),运动场可以分解为相对于相机的背景平移,物体平移场相对于场景。(注意都是translation field,平移场)
一个网络估计深度
关于残余运动场的两个假设:
1他们是稀疏的,2在3D空间中整个刚性移动对象是常数(匀速直线运动?)
3 方法:
两张相邻图像 -> 两张深度图 -> 通道连接 -> 运动预测 -> 3D平移场+6D自我运动场(三个旋转三个平移)
T (u, v) = Tobj(u, v) + Tego
3.1深度和运动网络
3.2损失函数
Lg1 group smoothness loss
L1/2 sparsity loss
组平滑损失Lg1在Tobj(u,v)上,最小化运动区域的变化,也就是说使运动区域几乎是常数。因为运动物体是刚性的。
L1/2损失促进稀疏
等等。。