论文笔记,物体六自由度位姿估计,DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion
链接
论文下载地址:https://arxiv.org/abs/1901.04780
主页地址(代码视频):https://sites.google.com/view/densefusion/
GIthub代码地址:https://github.com/j96w/DenseFusion
Youtube视频地址:https://youtu.be/SsE5-FuK5jo
摘要
从RGB-D图像中进行6D目标姿态估计的一个关键技术挑战是充分利用彩色和深度这两个互补的数据源。以前的工作要么从RGB图像和深度中单独提取信息,要么使用昂贵的后处理步骤,限制了它们在高度混乱的场景和实时应用程序中的性能。
在这项工作中,我们提出了一种用于从RGBD图像中估计一组已知对象的6D位姿的通用框架DenseFusion。DenseFusion是一种异构的体系结构,它分别处理两个数据源,并使用一种新的dense fusion network (DenseNet介绍1)来提取像素级的 dense feature embedding(Embedding层介绍2),并从中估计姿态。此外,我们整合了一个端到端迭代的位姿细化过程,进一步改进了位姿估计,同时实现了近乎实时的处理速度。实验结果表明,该方法在YCB-Video和LineMOD两种数据集上均优于现有的方法。我们还将所提出的方法应用到一个真实的机器人上,根据所估计的姿态来抓取和操纵物体。
1,引言
6D 目标姿态估计对许多重要的现实应用都很关键,例如机器人抓取与操控、自动导航、增强现实等。理想情况下,该问题的解决方案要能够处理具有各种形状、纹理的物体,且面对重度遮挡、传感器噪声、灯光条件改变等情况都极为稳健,同时还要有实时任务需要的速度。RGB-D 传感器的出现,使得在弱灯光环境下推断低纹理目标姿态的准确率比只用 RGB 方法的准确率更高。尽管如此,已有的方法难以同时满足姿态估计准确率和推断速度的需求。
传统方法首先从 RGB-D 数据中提取特征,完成对应的分组和假设验证。但是,对手动特征的依赖和固定的匹配程序限制了它们在重度遮挡、灯光变化环境下的表现。近来在视觉识别领域取得的成果激发了一系列数据驱动方法,即使用 PoseCNN 和 MCN 这样的深度网络对 RGB-D 输入做姿态估计。
然而 PoseCNN 和 MCN 这些方法需要一个精心制作的后处理步骤,这样会导致两个问题:
- 这些微调步骤又不能与最终目标函数联合优化;
- 对于实时应用程序来说速度非常慢。
在自主驾驶的背景下,有一种第三方解决方案被提出,它能够通过 PointNet 和 PointFusion 这样的端到端深度模型很好地利用 RGB-D 数据中颜色和深度信息的进行补充。这些模型取