PVN3D论文翻译

CVPR2020旷视提出PVN3D:针对6D位姿估计的3D关键点投票网络

Abstract

在这项工作中,我们提出了一种新的数据驱动方法,用于从单个RGBD图像进行鲁棒的6DoF对象姿态估计。与直接回归姿态参数的先前方法不同,我们使用基于关键点的方法来解决这一具有挑战性的任务。具体而言,我们提出了一种深度霍夫投票网络,以检测对象的3D关键点,然后以最小二乘拟合的方式估算6D姿态参数。我们的方法是2Dkeypoint方法的自然扩展,该方法成功地用于基于RGB的6DoF估计。它使我们能够利用额外的深度信息充分利用刚体的几何约束,并且易于网络学习和优化。进行了广泛的实验,以证明3D关键点检测在6D姿势估计任务中的有效性。实验结果还表明,我们的方法在几个基准上大大优于最新方法。代码和视频可从https://github.com/ethnhe/PVN3D.git获得。

1. introduction

在本文中,我们研究了6DoF姿态估计的问题,即识别标准框架中对象的3D位置和方向。它是许多现实应用中的重要组件,例如机器人的抓握和操纵[6、48、56],自动驾驶[11、5、53],增强现实[31]等。

由于光线,传感器噪声,场景的遮挡和物体的截断等原因,6DoF估计已被证明是一个极具挑战性的问题。[19,30]等传统方法使用手工制作的特征来提取图像与物体网格模型之间的对应关系。这种由人为经验的经验性设计特征会因照明条件的变化和严重遮挡的场景而受到性能的限制。最近,随着机器学习和深度学习技术的爆炸性增长,基于深度神经网络(DNN)的方法已被引入到这项任务中,并显示出令人鼓舞的改进。 [50,52]提出直接使用DNN回归对象的旋转和平移。然而,由于[37]所解释的旋转空间的非线性,这些方法通常具有较差的概括性。取而代之的是,最近的工作利用DNN来检测对象的2D关键点,并使用Perspectiven-Point(PnP)算法计算6D姿态参数[37、36、41、47]。尽管这两个阶段的方法执行起来更稳定,但大多数方法还是建立在2D投影之上。在真实的3D空间中,投影误差很小。同样,在2D投影后3D空间中的不同关键点可能会重叠,从而很难区分它们。此外,刚性物体的几何约束信息将由于投影而部分丢失。
在这里插入图片描述图一 pipeline:(a)输入RGBD图片;(b)使用一个深度霍夫投票网络预测每个点相对于关键点的平移偏移;©在同一个对象上每一个点为选择的关键点投票,和将集群的中心选为预测关键点;(d)-(e)最小二乘拟合方法应用于估计6D位姿参数;(f)由估计的6D位姿参数转换后的模型

另一方面,随着RGBD传感器和数据集的普及,额外的深度信息允许将2D算法扩展至3D空间,并在3D物品检测等问题上取得了良好的性能,如pointnet系列和votenet等。本文充分利用了刚体的几何约束信息,将基于2D关键点的方法扩展基于3D关键点,提升6D位姿测量精度。具体而言,本文提出一种基于霍夫投票(Hough voting)的神经网络,以学习逐点到3D关键点的偏移并为3D关键点投票,如图 1 所示。本文的其中一个关键发现是一个简单的几何特性,即在3D空间中,一个刚体上任意两点之间的相对位置关系是固定的。因此,给定物体表面的一个可见点,它的坐标和方向可由深度信息获得,其相对于刚体上预选关键点的平移偏移量也是确定且可学习的。同时,深度神经网络学习逐点欧几里得偏移直截了当,且易于优化。

当场景有多个物体时,本文在网络中引入一个实例语义分割模块,并和关键点投票任务联合优化。本文发现,联合训练这些任务可以让网络学出更好的表征从而提升网络在每一个任务上的性能。具体来说,语义分割通过确认一个点属于物品的哪一部分从而帮助判断该点到关键点的平移偏移;另一方面,平移偏移量包含的物品的尺度信息有助于模型区分外表相似但大小不同的物体。

我们在YCB和LineMOD数据集上验证方法的可行性,达到了sota效果。

贡献如下

*. 提出了一种基于实例语义分割的深度3D关键点霍夫投票网络,用于单RGBD图像的6D位姿估计;
*. 在YCB和LineMOD数据集上性能达到sota;
*. 深入分析基于3D关键点的方法,并与之前的方法进行了比较,表明3D关键点是提高6D位姿估计性能的关键因素。我们还证明,联合训练3D关键点和语义分割可以进一步提高性能。

2. Related Work

2.1. Holistic Methods(整体法)

整体方法可以直接估计给定图像中对象的3D位置和方向。基于经典模板的方法构造刚性模板并扫描图像以计算最佳匹配的姿势[21、13、17]。这样的模板对于群集场景并不健壮。最近,有人提出了一些基于深度神经网络(DNN)的方法来直接回归摄像机或物体的6D姿态[52、50、14]。但是,旋转空间的非线性使数据驱动的DNN难以学习和推广。为了解决这个问题,一些方法使用后细化过程[26,50]迭代地细化姿势,其他方法离散旋转空间并将其简化为分类问题[49,43,45]。对于后一种方法,仍然需要后期优化过程来补偿离散化所牺牲的准确性。

2.2 基于关键点的方法

当前基于关键点的方法首先检测图像中对象的2D关键点,然后利用PnP算法估计6D姿势。经典方法[30、42、2]能够有效地检测具有丰富纹理的对象的2D关键点。但是,它们不能处理没有纹理的对象。随着深度学习技术的发展,提出了一些基于神经网络的二维关键点检测方法。 [41,47,20]直接回归关键点的2D坐标,而[33,24,34]使用热图定位2D关键点。为了更好地处理截断和遮挡的场景,[37]提出了一个像素级投票网络来为2D关键点位置投票。这些基于2D关键点的方法旨在最小化对象的2D投影误差。但是,在实际的3D世界中,投影误差很小。 [

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值