无监督深度估计、运动估计的深度学习方法（一）

最新推荐文章于 2024-07-09 13:30:56 发布

放牛娃子

最新推荐文章于 2024-07-09 13:30:56 发布

阅读量2.6k

点赞数 8

分类专栏： ego-motion 视觉里程计文章标签：深度学习自动驾驶

本文链接：https://blog.csdn.net/qq_22751305/article/details/109990620

版权

视觉里程计同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

ego-motion

4 篇文章 0 订阅

订阅专栏

摘要

旨在总结无（自）监督深度学习depth、ego-motion和obj-motion的估计方法。在这个领域，在本人的调研中，有几篇比较有代表性的文章，罗列如下。

paper list

Unsupervised Learning of Depth and Ego-Motion from Video （2017），code

早期的一篇无监督深度估计论文，思想较为简洁。预测深度图、pose、一个mask E（用于衡量合成图像在view synthesis objective中的有效区域）。

采用vs（view systhesis）损失（L1损失，用目标图像减去合成图像）、平滑损失（深度图的2阶导为0）、正则化损失（防止E为全0，故将E的gt为1）

monodepth2(2019)， code

自监督训练深度估计网络，可选配单目、立体视觉，或者单目与立体视觉结合的自监督训练。

训练框架有两个深度神经网络，一个采用UNet预测深度，另一个输入2张RGB图像，即input的通道数为6，预测这两张图像的相对姿态pose。

训练大致流程：

预测深度和pose；
利用pose构造变换矩阵T，结合深度值，将一个图像投影另一个图像上，形成合成图像；
最小化投影误差（photometric reconstruction error），优化网络。同时引入边缘平滑损失，优化深度的预测效果。

作者指出，将poesnet和depthnet联合训练，两个任务会相互促进。本人用自己的数据集训练，容易出现holes。根据github上的问题分析，推测是自己数据集中动态目标太多所致。

模型测试

开源代码中已提供训练好的模型，可根据喜好下载测试

Unsupervised Monocular Depth Learning in Dynamic scenes (2020, 谷歌）， code

对于depth network，利用Unsupervised learning of depth and egomotion from video（2017）中的方法，对depth的激活函数改为softplus，在relu之前，增加了randomized layer normalization（参考论文《Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras（2019）》）。

对于motion network，参考这篇论文Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras（2019），将输入有RGB图像，改为RGBD 4个通道。其中，D为预测的depth。

作者对loss层面做了改进。可以处理动态场景，在含有较多动态目标的场景中，取得sota效果。

Instance-wise Depth and motion learning from Monocular video （CVPR 2020）

摘要

我们提出了一个端到端的联合训练框架，在没有监督的情况下，直接模拟了多个动态物体的6自由度运动、Ego-motion和深度。
在我们的框架中使用的唯一注释是一个视频实例分割图，它可以由我们新的自动注释方案进行预测。我们的贡献主要三个方面。首先，我们提出了一个可微的前向刚性投影模块，它在我们的实例深度和运动学习中起着关键作用。其次，我们设计了一个实例级的光度和几何一致性损失，有效地分解背景和运动目标区域。最后，我们提出了一个不需要额外迭代训练的实例级小批量重组方案。这些元素在一个详细的渐变研究中得到了验证。通过在KITTI数据集上进行的大量实验，我们的框架被证明优于最新的深度和运动估计方法。

Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes （2021）

无监督深度估计，认为图像局部为刚性目标，预测一个6D的motion图 P。同时预测一个object 分割图M，对于背景，在取P中背景对应位置的均值，构造rigid model，计算合成损失。

对于目标，采用类似的方式，构造non-rigid model，计算目标的合成损失。

下面两篇文章也不错。在深度估计实验中，大多将下面两个方法作为对标方法。

struct2depth (Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos. In: AAAI (2019))

GLNet (Self-supervised learning with geometric constraints in monocular video: Connecting flow, depth, and camera. In: ICCV (2019))

无监督深度估计、运动估计的深度学习方法（二）

描述了无监督深度估计中的常用损失函数SSIM。

放牛娃子

关注

8
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
无监督深度估计、运动估计的深度学习方法（一）

摘要旨在总结无（自）监督深度学习depth、ego-motion和obj-motion的估计方法。在这个领域，在本人的调研中，有几篇比较有代表性的文章，罗列如下。paper listmonodepth2(2019)， code自监督训练深度估计网络，可选配单目、立体视觉，或者单目与立体视觉结合的自监督训练。训练框架有两个深度神经网络，一个采用UNet预测深度，另一个输入2张RGB图像，即input的通道数为6，预测这两张图像的相对姿态pose。训练大致流程：预测深度和po
复制链接

扫一扫

专栏目录