Paper阅读:VOLDOR: Visual Odometry from Log-logistic Dense Optical flow Residuals

VOLDOR:来自对数逻辑密集光流残差的视觉里程表

引用:

Min, Z., Yang, Y., & Dunn, E. (2020). VOLDOR: Visual Odometry From Log-Logistic Dense Optical Flow Residuals. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4898-4909).*

摘要:

我们提出了一种密集的间接视觉测距法,将外部估计的光流场作为输入,而不是手工制作的特征对应关系。 我们将我们的问题定义为概率模型,并为相机运动,像素深度和运动轨迹置信度的联合推断开发了通用的EM公式。 与假设高斯分布观测误差的传统方法相反,我们在(经验验证)自适应对数逻辑分布模型下监督我们的推理框架。 此外,对数逻辑残差模型很好地概括了不同的最新光流方法,从而使我们的方法模块化且与光流估计器的选择无关。 我们的方法在TUM RGB-D和KITTI里程表基准测试中均获得了一流的结果。 我们的开源实现1本质上是GPU友好的,仅线性计算和存储增长。

Introduction

VO解决了从输入视频序列中恢复摄像机位姿,可以应用于增强现实(AR),机器人和自动驾驶领域。

本文方法

本文为单目VO设计了一个密集的间接型框架模型。输入是监督学习估计器的外部计算的光流。本文作者从经验上观察到,光流残差趋于符合光流大小参数化的对数逻辑(菲斯克)分布模型。基于此作者提出的概率框架融合了密集的光流序列,并设计了EM算法,共同估算了相机运动、像素深度和运动轨迹置信度。在每个像素都对应于我们估计的随机变量的实例的意义上。
作者基于最小特征的多视图几何模型(P3P用于相机姿态,3D三角部分用于像素深度)内将单个像素视为视线的意义上,这是间接的,隐式的优化了重投影误差。
从确定的相机位姿引导程序和从光流输入获得像素深度开始,在一系列连续图像上交替进行深度、姿态和跟踪置信度的推断,不断迭代。
该框架的优点包括:1):提出了与光流估计引擎无关的模块化框架,使得框架可以充分利用最新的深度学习光流方法。并且通过学习可以把密集光流替换为稀疏的手工特征输入,就可以获得质地纹理较差区域的表面信息。 2):通过利用经验验证的对数逻辑残差模型,获得了不依赖于高斯误差假设的场景深度和摄像机运动的高精度概率估计。在KITTI和TUM RGB-D数据集上进行VO和深度估计任务上均表现出一流的性能。

VO

间接方法

依靠稀疏关键点对应关系的几何分析来确定输入视频帧之间的视图关系。
依靠局部特征检测和对应预处理,将VO问题转换为重投影误差最小化任务。
开放问题: 如何在VO背景下表征定位误差,其中运动模糊,深度遮挡和视点变化会破坏此类估计。并且在零均值高斯分布观测误差的假设小,通常使用最小二乘法。
间接方法依赖于输入视频帧之间稀疏关键点对应关系的几何分析,并将VO问题作为重投影误差最小化任务。 VISO将卡尔曼滤波器与基于RANSAC的离群值剔除结合使用,以稳健地估计帧到帧的运动。 PTAM将跟踪和映射划分为不同的线程,并在后端应用昂贵的包调整(BA)以实现更好的准确性,同时保留实时应用程序。 ORBSLAM 进一步介绍了一种多功能SLAM系统,该系统具有更强大的后端以及全局重新定位和循环关闭功能,可用于大型环境应用程序。

直接方法

通过确定图像之间的(半)密集配准(翘曲)以及相机运动模型的参数。
通过评估密集的对应字段,直接方法努力使注册图像之间的光度误差最小化。
开放问题: 直接方法的有效性依赖于严格遵循微小运动和外观更定性假设(或依赖于对此类变化具有鲁棒性的配准模型的开发),这说明很难在充分利用可变数据建立模型,所以减少了了该方法的适用范围。
直接方法保持(半)密集模型,并通过找到使光度误差w.r.t最小的翘曲来估计相机运动。视频帧。 DTAM 引入了针对小型工作空间的基于GPU的实时密集建模和跟踪方法。 LSD-SLAM切换到半密集模型,该模型允许大规模CPU实时应用。 DSO建立了稀疏模型,并结合了针对所有参数共同优化的概率模型,并进一步集成了完整的光度校准,以实现当前最新的精度

深度学习VO

近来,深度学习显示了在视觉里程表问题上的蓬勃发展。在基于学习的深度预测中,通过几何先验来提高VO已经被提出。也出现了将深层表示集成到诸如特征点,深度图和优化器之类的组件中的方法。 也有学者提出了可共同估计深度,光流和相机运动的深度学习框架。在一些论文中提出了进一步添加递归神经网络来学习时间信息的方法。但是,深度学习方法通​​常难以解释,并且在转移到看不见的数据集或具有不同校准的相机时会遇到困难。而且,这种方法的精度仍然不如现有技术。

深度学习光流

光流估计:光流可以看作是 与相机运动和场景结构有关的刚性流和描述一般对象运动的无约束流的组合

最新的技术光流估计使用了监督学习的方法,现在具有最好的性能。但是该性能优势未能作用在姿势估计任务中,在姿势估计任务中,多视图几何方法仍作为“黄金标准”占据着统治性地位。

与发展并施加强语义先验的基于学习的单眼深度方法相反,用于光流估计的学习可能会受到光度误差的影响,从而获得更好的概括性。最近关于光流估计的深度学习工作显示出令人满意的准确性,鲁棒性和泛化能力,优于传统方法,尤其是在诸如以下挑战性条件下没有纹理的区域,运动模糊和较大的遮挡。 FlowNet 引入了用于光流的编码器-解码器卷积神经网络。 FlowNet2通过堆叠多个基本FlowNet来提高了其性能。最近,PWCNet 将空间金字塔,翘曲和成本量集成到了深层光流估计中,从而提高了性能并推广了当前的最新技术。

本文VO方法

输入一批外部计算的光流场,并推断出时间上前后一致的底层场景结构(深度图),摄像机运动以及每个光流估计的“刚性”的像素概率。此外我们在估计刚性流和输入流之间的端点误差(EPE)的经验验证的自适应对数逻辑残差模型的监督下,建立了系统框架

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值