DenseFusion(6D姿态估计)解读-2019cvpr

最新推荐文章于 2024-08-09 07:36:35 发布

无人不智能，机器不学习

最新推荐文章于 2024-08-09 07:36:35 发布

阅读量4.9k

点赞数 2

分类专栏： pyTorch 深度学习算法文章标签： pytorch 深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qidailiming1994/article/details/104750066

版权

DenseFusion是一种从RGB-D输入中估计已知物体6D姿态的深度学习框架，通过像素级融合网络结合颜色和深度信息，解决了遮挡问题。在YCB视频和LineMOD数据集上，该方法表现出优越的性能，并在实时机器人任务中实现了目标抓取。

摘要由CSDN通过智能技术生成

DenseFusion(6D姿态估计)解读-2019cvpr

资源

论文
 作者源码
 他人修改过代码

作者的想法

我们在研究中发现，从 RGB-D 输入中提取 6D 姿态信息时，很多点是被其他对象遮挡住的，这就会导致识别性能发生明显下降。在前人的工作中，一种流行的方法是利用全局特征进行 6D 位姿估计。但是当发生了遮挡，全局特征很大程度上会受到影响，导致预估测结果不佳。在这项工作中，我们生成了基于像素的密集融合方式，在不同的通道中先分别处理 RGB 和深度信息，以生成基于像素的颜色嵌入和带有 PointNet 结构的几何嵌入。然后我们利用 RGB 和密集度之间的对应关系就可以实现像素级别的融合并进行预测

1.摘要

从RGB-D图像进行6D目标位姿估计的一个关键技术挑战是充分利用两个互补的数据源。以前的工作要么是从RGB图像和深度中分别提取信息，要么是使用昂贵的后处理步骤，限制了它们在高度混乱的场景和实时应用中的性能。在这项工作中，我们提出了一个从RGB-D图像中估计一组已知物体的6D姿态的通用框架DENSEFORSION。dense fusion是一种异构的体系结构，它对两个数据源分别进行处理，并使用一种新的密集融合网络来提取像素级的密集特征嵌入，从中估计姿态。此外，我们还集成了一个端到端迭代位姿优化过程，在实现近实时推理的同时进一步改进了位姿估计。实验结果表明，该方法在YCB视频和LineMOD两个数据集上均优于目前最新的方法，并将该方法应用于实际机器人中，实现了基于姿态估计的目标抓取和操作。

2.介绍

6D目标姿态估计是许多重要的现实应用的关键，如机器人抓取和操纵、自主导航和增强现实。理想情况下，解决方案应处理形状和纹理变化的对象，对严重遮挡、传感器噪声和改变照明条件显示鲁棒性，同时达到实时任务的速度要求。廉价的RGB-D传感器的出现使得即使在光线不好的环境中也能比仅用RGB的方法更准确地推断低纹理物体的姿态。然而，现有的方法很难同时满足精确姿态估计和快速推理的要求。
在这项工作中，我们提出了一种端到端的深度学习方法，用于从RGB-D输入估计已知物体的六自由度姿态。我们方法的核心是在每像素级别嵌入和融合RGB值和点云，这与之前使用图像裁剪来计算全局特征[41]或2D边界框[22]的工作类似。这种每像素的融合方案使我们的模型能够明确地了解局部的外观和几何信息，这对于处理严重的遮挡是至关重要的。此外，我们还提出了一种在端到端学习框架下进行姿态调整的迭代方法。这大大提高了模型的性能，同时保持了参考速度的实时性。
我们在Y