传统的6d位姿估计fangfa1_6D目标姿态估计，李飞飞夫妇等提出DenseFusion

最新推荐文章于 2023-09-03 22:25:13 发布

weixin_39868959

最新推荐文章于 2023-09-03 22:25:13 发布

阅读量477

点赞数

文章标签：传统的6d位姿估计fangfa1

本文链接：https://blog.csdn.net/weixin_39868959/article/details/111641042

版权

本文提出了一种名为DenseFusion的端到端深度学习方法，用于处理RGB-D输入的6D目标姿态估计。通过像素级融合RGB和深度信息，模型能更好地处理重度遮挡情况，且在YCB-Video和LineMOD数据集上超越了PoseCNN，提高了3.5%的精度和200倍的推理速度。

摘要由CSDN通过智能技术生成

选自 arxiv，作者：Chen Wang 等，机器之心编译，机器之心编辑部。

根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源——颜色和深度。为此，李飞飞夫妇等研究者提出了 DenseFusion——一种可单独处理两个数据源的异质架构。实验表明，DenseFusion 在 YCB-Video 和 LineMOD 两个数据集上的表现都优于当前最先进的方法。此外，研究者还将该方法应用于真实的机器人上，使其可以根据估计的姿态来抓取和操纵目标。

1 引言

6D 目标姿态估计对许多重要的现实应用都很关键，例如机器人抓取与操控、自动导航、增强现实等。理想情况下，该问题的解决方案要能够处理具有各种形状、纹理的物体，且面对重度遮挡、传感器噪声、灯光条件改变等情况都极为稳健，同时还要有实时任务需要的速度。RGB-D 传感器的出现，使得在弱灯光环境下推断低纹理目标姿态的准确率比只用 RGB 方法的准确率更高。尽管如此，已有的方法难以同时满足姿态估计准确率和推断速度的需求。

传统方法首先从 RGB-D 数据中提取特征，完成对应的分组和假设验证。但是，对手动特征的依赖和固定的匹配程序限制了它们在重度遮挡、灯光变化环境下的表现。近来在视觉识别领域取得的成果激发了一系列数据驱动方法，即使用 PoseCNN[40] 和 MCN [16] 这样的深度网络对 RGB-D 输入做姿态估计。

但是，这些方法需要精心制作后分析微调步骤，从而完整利用 3D 信息，例如 PoseCNN 中生成的高级定制的迭代最近点（ICP）和 MCN 中多视角假设验证规划。这些微调步骤不能与最终目标函数联合优化，在现实应用中也极为缓慢。在自动驾驶中，有一种第三方解决方案被提出，它能够通过 Frustrum PointNet[22] 和 PointFusion[41] 这样的端到端深度模型很好地利用 RGB-D 数据中颜色和深度信息的补充性质。在驾驶场景中，这些模型取得了非常好的表现，也有很好的实时推理能力。但是，根据经验可知，这些方法在重度遮挡环境下不符合标准，这是实际操控领域中非常常见的一种情况。

在本文中，研究者提出一种端到端的深度学习方法，对 RGB-D 输入的已知物体进行 6D 姿态估计。该方法的核心是在每个像素级别嵌入、融合 RGB 值和点云，这和之前使用图像块计算全局特征 [41] 或 2D 边界框 [22] 的研究相反。这种像素级融合方法使得本文

最低0.47元/天解锁文章

weixin_39868959

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
传统的6d位姿估计fangfa1_6D目标姿态估计，李飞飞夫妇等提出DenseFusion

选自 arxiv，作者：Chen Wang 等，机器之心编译，机器之心编辑部。根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源——颜色和深度。为此，李飞飞夫妇等研究者提出了 DenseFusion——一种可单独处理两个数据源的异质架构。实验表明，DenseFusion 在 YCB-Video 和 LineMOD 两个数据集上的表现都优于当前最先进的方法。...
复制链接

扫一扫