Learning Depth from Monocular Videos using Direct Methods 论文阅读 #paper reading

单目相机的深度估计一直是领域的研究热点,之前的做法普遍是两个CNN分支分别预测pose和depth,然后互相约束。本文的贡献,主要是在没有pose CNN的分支的情况下,完成了pose+depth的预测,同时验证了pose CNN完全是没有必要的。

文章指出,当前(似乎是2017年左右)单目视觉的主要问题就在于 1)未知的相机姿态;2) ambiguity in scale,个人理解的是尺度的问题,物体到底有多大,场景的规模如何,也就是单目视觉中物体的具体3D信息问题。之前的大部分方法,都仅仅是加了一个额外的camera pose estimation的网络,但这并没有充分解决scale的问题。并且文章甚至还指出,这个额外的pose估计网络其实是根本不需要的。因此提出了某种在SLAM领域比较常见的测距方法来进行pose estimation。
本文的主要贡献:1)证明了为什么单目图片中存在ambiguity in scale的问题,也就是训练过程中往往使用的是归一化的深度,而不是具体的深度。借鉴SLAM中直接视觉测距的方式,提出了一种归一化的策略,来解决上述问题。2)因为pose CNN是没有太大意义的,所以直接把DVO整合进文中的框架,提出了一个可微的DDVO模型,文章也是给出了DDVO的三点好处,但是并不是太了解这个模型,所以暂时没有很看懂。
本文希望去做的,就是利用一个网络模型,输入一张图片,直接输出图片的深度图(正常深度,或者拟深度,这两个可以互相转换)。之前的SFM方式,都是通过如下的损失函数来优化模型:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值