点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
标题:MO-LTR: Multiple Object Localization, Tracking and Reconstruction from Monocular RGB Videos
作者:Kejie Li1 Hamid Rezatofighi2 Ian Reid1
来源:arXiv 2020
编译:点云PCL
摘要
在机器人和AR/VR应用领域中,语义感知与重建比纯几何重建更具优势,因为它不仅代表物体的位置,而且了物体是什么。以对象为中心的建图是一项建立物体重构的任务,其中物体对象是独立的、有意义的实体,同时传递几何和语义信息。在本文中提出了MO-LTR,一种仅使用单目图像序列和相机姿态的以对象为中心的建图解决方案。当单目相机捕捉到周围环境的视频时,它能够以在线方式定位、跟踪和重建多个对象。在给定一个新的RGB帧的情况下,MO-LTR首先利用单目3D感知算法对感兴趣的目标进行定位,并在学习的嵌入空间中提取代表目标物体的形状。在数据关联后,检测结果将合并到地图中的现有对象。通过多模型的贝叶斯滤波器跟踪每个目标的运动状态(即运动学和运动状态),并通过融合多个物体形状逐步细化目标形状。我们评估定位,跟踪和重建在基准数据集的室内和室外场景,并显示优于以往的方法性能。
输入RGB图像的子集左边图像表示。检测和跟踪显示在中间图像,其中彩色光线表示对同一物体的相关探测。从MO-LTR的对象级重建如右图所示。
主要内容
我们提出了MO-LTR,这是一个统一的以对象为中心的建图框架,能够在给定单目RGB视频的情况下在线定位、跟踪和重建多个对象。
证明了单目三维检测、多模型贝叶斯滤波和深度学习形状先验的结合可以实现鲁棒的多目标跟踪和重建。
对提出的系统进行了广泛的评估,在室内和室外数据集上显示出比以前的方法更精确的重建和健壮的跟踪。
MO-LTR流程概述
本文提出了一种新的RGB框架,MO-LTR首先采用单目3D感知算法来预测9自由度物体姿态、物体类别标签和2D包围盒。对于每个检测到的物体,由物体的二维边界框裁剪的图像映射到之前学习的形状库中。地图中每个现有对象物体的状态即姿态和运动状态由多模型贝叶斯滤波器建模。在数据关联之前,使用滤波器来预测对象的位置,并根据预测的运动状态来判断对象是否匹配。新的检测物体基于简单但实用的成对代价作为匹配代价与可匹配对象相关联。使用Munkres算法来解决线性分配问题,以确定检测是合并到对象轨迹还是实例化地图中的新对象。使用相关检测器更新滤波器。为了重建一个物体的形状,多个单视图形状码通过取平均值融合成一个单视图形状码,然后由形状码解码为TSDF。使用更新的物体对象姿势将对象形状转换为世界坐标。上图显示了系统的流程,具体细节可以查看论文中相关内容。
ScanNet数据集的定位与重建。顶行:真值mesh网格作为参考,中间行:物体覆盖在真值网格上以显示定位质量。底行:对象形状重建。mesh网格仅用于可视化目的。MO-LTR的输入仅为相机姿势和RGB图像
实验对比
KITTI数据集上的目标跟踪。跟踪的目标是一致的,激光雷达点云只用于可视化目的。
KITTI数据集重建与MOTSFusion重建的比较。左:当前帧,中:MOTSFusion重建,右:我们的重建。请注意,彩色激光雷达点云仅用于可视化,而不是处理的一部分。
总结
本文提出了一种基于单目图像序列的多目标定位、跟踪和重建框架MO-LTR。利用深度形状先验进行完整而精确的形状重建,并利用IMM滤波器联合跟踪物体的运动和判别运动状态。在静态和动态环境下,我们对MO-LTR进行了广泛的室内和室外评估。虽然我们证明了依赖于3D GIoU的数据关联是实用的,但一个有趣的未来方向是开发一种基于学习的数据关联方法。这还可以为端到端可学习系统铺平道路。并且SLAM可以为MO-LTR提供相机姿势。另一个有希望的未来方向是将MO-LTR集成到SLAM框架中,以便在SLAM中利用而物体对象的先验知识。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~