Learning Depth from Monocular Videos using Direct Methods 论文阅读 #paper reading

最新推荐文章于 2023-02-10 15:46:38 发布

奔跑的汉堡包

最新推荐文章于 2023-02-10 15:46:38 发布

阅读量346

点赞数

文章标签： pose 单目相机深度估计

本文链接：https://blog.csdn.net/qq_29679623/article/details/103124528

版权

单目相机的深度估计一直是领域的研究热点，之前的做法普遍是两个CNN分支分别预测pose和depth，然后互相约束。本文的贡献，主要是在没有pose CNN的分支的情况下，完成了pose+depth的预测，同时验证了pose CNN完全是没有必要的。

文章指出，当前（似乎是2017年左右）单目视觉的主要问题就在于 1)未知的相机姿态；2） ambiguity in scale，个人理解的是尺度的问题，物体到底有多大，场景的规模如何，也就是单目视觉中物体的具体3D信息问题。之前的大部分方法，都仅仅是加了一个额外的camera pose estimation的网络，但这并没有充分解决scale的问题。并且文章甚至还指出，这个额外的pose估计网络其实是根本不需要的。因此提出了某种在SLAM领域比较常见的测距方法来进行pose estimation。
本文的主要贡献：1）证明了为什么单目图片中存在ambiguity in scale的问题，也就是训练过程中往往使用的是归一化的深度，而不是具体的深度。借鉴SLAM中直接视觉测距的方式，提出了一种归一化的策略，来解决上述问题。2）因为pose CNN是没有太大意义的，所以直接把DVO整合进文中的框架，提出了一个可微的DDVO模型，文章也是给出了DDVO的三点好处，但是并不是太了解这个模型，所以暂时没有很看懂。
本文希望去做的，就是利用一个网络模型，输入一张图片，直接输出图片的深度图（正常深度，或者拟深度，这两个可以互相转换）。之前的SFM方式，都是通过如下的损失函数来优化模型：

最低0.47元/天解锁文章

奔跑的汉堡包

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Learning Depth from Monocular Videos using Direct Methods 论文阅读 #paper reading

这篇论文是博主在读之前发的一篇论文Digging Into Self-Supervised Monocular Depth Estimation的源码时候看到的，上述论文作者的源码里面，在计算loss的时候提到了这篇文章，所以比较好奇就来读一读。
复制链接

扫一扫