最新清华大学arXiv上传的深度学习摄像头运动估计论文

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者:黄浴

https://zhuanlan.zhihu.com/p/138926038

本文仅做学术分享,如有侵权,请联系删除。

2020年4月3日清华大学在arXiv上传论文“Towards Better Generalization: Joint Depth-Pose Learning without PoseNet”。

摘要:这项工作是解决本质上自监督联合深度图-姿势学习的尺度不一致问题。目前大多数方法都假定可以采用所有输入样本学习一致的深度和姿势尺度,这使学习问题变得更加困难,从而导致室内环境和长序列视觉里程计应用的性能下降和有限的通用性。为了解决这个问题,文中提出了一种新系统从网络估计中明确地解藕尺度。该方法不依赖PoseNet架构,直接从致密光流对应关系中求解基本矩阵 (fundamental matrix) 来恢复相对姿态,并利用立体视觉三角化原理来恢复可扩展的3D结构。然后,将深度预测的尺度与三角化的点云对齐,并将转换的深度图做深度误差计算和致密重投影检查。该整个系统可以接受端到端的联合训练。作者用大量的实验表明,该系统在KITTI的深度和光流估计达到了最好的性能,而且还显着提高现有自监督深度图-姿势学习方法在各种挑战性场景的泛化能力,而且实现了KITTI的里程计和NYUv2数据集基于自监督学习方法的最好结果。此外,就泛化能力而言,基于PoseNet的相对姿势估计方法的局限性本文提出了一些有趣的发现。https://github.com/B1ueber2y/TrianFlow可以下载代码。


文章首先给出结果比较:

然后介绍其算法框架:

现有自监督深度图-姿势学习方法的中心思想是,通过对图像对进行几何约束,估计单目深度和相对姿势时分别学习两个独立网络。具体而言,用预测的相对相机姿态,把预测深度重投影到另一个图像平面上,然后测量光度误差。但此类方法假定所有图像的深度图和姿势的尺度都是一致的。如图所示,本文的方法是这样的:DepthNet获取每个输入图像并分别预测单目深度。FlowNet以图像对输入预测光流;依次执行采样像素对应、基本矩阵求解和顺性(cheirality)条件检查等恢复相对姿态;精确像素匹配的重采样用于三角化测量;根据稀疏的三角化深度估计对齐深度预测,分别计算损失函数去联合监督DepthNet和FlowNet的训练。

训练的损失函数:

其中Lf是光流项(基于光度误差),Ld是深度图项(预测误差),Lp是图像对重投影项(下面介绍其两个部分),而Ls是深度平滑项(类似以前的方法),那么深度图项定义为

这里采用了ICCV'19提出的dual pixel方法。而重投影项定义为

其中两项分别是光流和深度带来的项:需要摄像头内参K


下面的结果:

先是室外环境

深度估计

光流估计

里程计估计

特意提出对未见过的运动估计

(stride=3).

(文中刚开始的结果就是这个情况)

然后室内环境

深度估计

里程计

作者认为其方法的泛化来自于以下设计:1)光流进行相机自运动预测,2)深度与3-D三角化结构之间的显式尺度对齐。与深度学习模型的相对姿势估计相比,光流不会受尺度模糊性的影响。当然,他们也知道当前的系统无法处理运动过大的场景,也不能用立体三角测量在线处理纯旋转运动。

感觉该文方法的结构,和下面这篇参考文献最接近:文中里面也提到了,作者觉得自己的创新主要是自监督学习。

【64】H Zhan, C S Weerasekera, J Bian, and I Reid. “Visual odometry revisited: What should be learnt?” arXiv preprint arXiv:1909.09803, 2019

推荐阅读:

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值