无监督深度估计、运动估计的深度学习方法(一)

摘要

旨在总结无(自)监督深度学习depth、ego-motion和obj-motion的估计方法。在这个领域,在本人的调研中,有几篇比较有代表性的文章,罗列如下。

paper list

 

Unsupervised Learning of Depth and Ego-Motion from Video (2017),code

早期的一篇无监督深度估计论文,思想较为简洁。预测深度图、pose、一个mask E(用于衡量合成图像在view synthesis objective中的有效区域)。

采用vs(view systhesis)损失(L1损失,用目标图像减去合成图像)、平滑损失(深度图的2阶导为0)、正则化损失(防止E为全0,故将E的gt为1)

monodepth2(2019), code

自监督训练深度估计网络,可选配单目、立体视觉,或者单目与立体视觉结合的自监督训练。

训练框架有两个深度神经网络,一个采用UNet预测深度,另一个输入2张RGB图像,即input的通道数为6,预测这两张图像的相对姿态pose。

训练大致流程:

  1. 预测深度和pose;
  2. 利用pose构造变换矩阵T,结合深度值,将一个图像投影另一个图像上,形成合成图像;
  3. 最小化投影误差(photometric reconstruction error),优化网络。同时引入边缘平滑损失,优化深度的预测效果。

作者指出,将poesnet和depthnet联合训练,两个任务会相互促进。本人用自己的数据集训练,容易出现holes。根据github上的问题分析,推测是自己数据集中动态目标太多所致。

模型测试

开源代码中已提供训练好的模型,可根据喜好下载测试

Unsupervised Monocular Depth Learning in Dynamic scenes (2020, 谷歌), code

对于depth network,利用Unsupervised learning of depth and egomotion from video(2017)中的方法,对depth的激活函数改为softplus,在relu之前,增加了randomized layer normalization(参考论文《Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras(2019)》)。

         对于motion network, 参考这篇论文Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras(2019),将输入有RGB图像,改为RGBD 4个通道。其中,D为预测的depth。

         作者对loss层面做了改进。可以处理动态场景,在含有较多动态目标的场景中,取得sota效果。

Instance-wise Depth and motion learning from Monocular video (CVPR 2020)

摘要

我们提出了一个端到端的联合训练框架,在没有监督的情况下,直接模拟了多个动态物体的6自由度运动、Ego-motion和深度。
在我们的框架中使用的唯一注释是一个视频实例分割图,它可以由我们新的自动注释方案进行预测。我们的贡献主要三个方面。首先,我们提出了一个可微的前向刚性投影模块,它在我们的实例深度和运动学习中起着关键作用。其次,我们设计了一个实例级的光度和几何一致性损失,有效地分解背景和运动目标区域。最后,我们提出了一个不需要额外迭代训练的实例级小批量重组方案。这些元素在一个详细的渐变研究中得到了验证。通过在KITTI数据集上进行的大量实验,我们的框架被证明优于最新的深度和运动估计方法。

Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes (2021)

无监督深度估计,认为图像局部为刚性目标,预测一个6D的motion图 P。同时预测一个object 分割图M,对于背景,在取P中背景对应位置的均值,构造rigid model,计算合成损失。

对于目标,采用类似的方式,构造non-rigid model,计算目标的合成损失。

下面两篇文章也不错。在深度估计实验中,大多将下面两个方法作为对标方法。

struct2depth (Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos. In: AAAI (2019))

GLNet (Self-supervised learning with geometric constraints in monocular video: Connecting flow, depth, and camera. In: ICCV (2019))

无监督深度估计、运动估计的深度学习方法(二)

描述了无监督深度估计中的常用损失函数SSIM。

 

  • 8
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值