PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation 2020 论文笔记

旷视,港科大,物体位姿识别

自己的想法:

这个是需要先验知识的物体位姿估计,Hough投票思想在3D目标检测任务中取得了非常大的成功,在物体位子估计中又发挥了非常大的作用。的确,点云数据稀疏而无序,在通过聚类算法消除离群点的干扰的前提下,Hough投票思想能够充分发挥每一个点云的作用,最大限度的利用点云数据。
最后,基于3D关键点的位姿估计在物体位姿估计任务中表现非常不错,是不是可以考虑应用到相机位姿估计中?

摘要

论文输入(RGBD图像)深度图和单帧图像,使用基于关键点的方法来检测图像中物体的姿态信息。论文提出了一个深度霍夫投票网络来检测物体的三维关键点,然后使用最小二乘拟合来估计6D位姿参数。

该方法是基于2D关键点方法的自然扩展,它在RGB图上估计6D位姿取得了成功。论文方法充分利用具有额外深度信息的刚体的几何约束,易于网络学习和优化。该方法达到了sota的性能

论文简介

本文研究的是6D位姿估计,即在标准框架下识别物体的3D位置和方向。

一些方法直接使用 DNN 回归物体的旋转R和平移矩阵T,但是由于旋转空间是非线性的,这些方法的泛化性往往较差。另一些方法则通过DNN检测一个物体的2D关键点,再通过PnP算法计算 6D 位姿参数。

尽管这种两阶段的方法更加稳定,但PnP算法构建在2D投影误差上,而2D空间的小误差在真实的3D空间中会被放大很多,而且,3D空间中的不同关键点可能会在2D投影后发生重叠,变得难以区分;更重要的,刚体的几何约束信息会由于相机的投影而部分缺失。

本文充分利用了刚体的几何约束信息,将基于2D关键点的方法扩展基于3D关键点,提升6D位姿测量精度。具体而言,本文提出一种基于霍夫投票(Hough voting)的神经网络,以学习逐点到3D关键点的偏移并为3D关键点投票。

当场景有多个物体时,本文在网络中引入一个实例语义分割模块,并和关键点投票任务联合优化

论文发现联合训练这些任务可以让网络学出更好的表征从而提升网络在每一个任务上的性能。具体来说,语义分割通过确认一个点属于物品的哪一部分从而帮助判断该点到关键点的平移偏移量;另一方面,平移偏移量包含的物品的尺度信息有助于模型区分外表相似但大小不同的物体。

本文贡献:

  1. 提出了一种基于实例语义分割的深度3D关键点霍夫投票网络,用于单RGBD图像的6D位姿估计;
  2. 在YCB和LineMOD数据集上性能达到sota;
  3. 深入分析基于3D关键点的方法,并与之前的方法进行了比较,表明3D关键点是提高6D位姿估计性能的关键因素。我们还证明,联合训练3D关键点和语义分割可以进一步提高性能。
论文方法

首先阐明要解决的问题:给定一张RGBD图像,物体6D位姿估计任务旨在将其从物体坐标系转换到相机坐标系的刚性变换,包含一个3D旋转变换和一个3D平移变换。即估计物体坐标系到相机坐标系的位姿变换矩阵。

在这里插入图片描述

首先特征提取模块从RGBD图像中提取每个点的特征。

分别输入模块到M_k、M_c和M_s来预测每个点到关键点、中心点的平移偏移以及语义分割。然后使用聚类算法来对不同实例进行实例分割。接着同一实例上的点对其目标关键点进行投票。最后,用最小二乘法对应预测关键点,估计出6D位姿参数。

3D关键点检测模块M_k

在特征提取模块提取逐点的特征之后,3D关键点检测模块M_k 负责检测每个物体的3D关键点。

具体的:

  1. 预测从可见点到目标关键点的欧几里得平移偏移量
  2. 通过这些可见点的坐标和预测的偏移量为目标关键点的位置投票
  3. 这些投票的点由聚类算法进行聚类以消除离群点的干扰,群集的中心点即为投票选出的关键点

损失函数:
L k e y p o i n t s = 1 N ∑ i = 1 N ∑ j = 1 ∣ ∣ o f i j − o f i j ∗ ∣ ∣ I ( p i ∈ I ) L_{keypoints}=\frac{1}{N}\sum_{i=1}^N\sum_{j=1}||of^j_i−of^{j∗}_i||I(pi\in I) Lkeypoints=N1i=1Nj=1ofijofijI(piI)

实例语义分割模块M_s

论文提到使用联合训练的初衷:一方面,语义分割模块迫使模型提取实例的全局和局部特征来区分不同的对象,这有助于在目标上定位一个点,有利于关键点偏移的推理过程;另一方面,为预测关键点的偏移量而学习的大小信息,有助于区分外观相似但大小不同的对象。

因而设计了实例语义分割模块M_s,并与M_k模块进行了联合优化。

M_s根据给定的提取出的每一点的特征,预测每点的语义标签,损失函数使用focal loss:
L s e m a n t i c = − α ( 1 − q i ) γ l o g ( q i ) w h e r e q i = c i ⋅ l i L_{semantic}=−α(1−q_i)^γlog(q_i)\\where q_i=c_i·l_i Lsemantic=α(1qi)γlog(qi)whereqi=cili
其中c为点云的置信度,l为one-hot 语义标签的真值

3D中心点检测木块M_c

中心点投票模块M_c投票出不同物体的中心点,以区分相同语义的不同实例(为什么不直接用实例分割,区分不同的实例呢?消融实验解释:语义模块提取全局和局部特征来区分不同的对象。这些特征还有助于模型识别出点属于对象的哪一部分,并改善平移预测)

在CenterNet启发下,进一步将2D中心点扩展到3D,3D中心点不会受遮挡的影响。由于中心点可视为一种特殊的物体关键点,该模块和M_k类似,利用逐点特征预测到目标中心的欧几里得平移偏移,使用L1 loss进行监督学习:
L c e n t e r = 1 N ∑ i = 1 N ∣ ∣ Δ x i − Δ x i ∗ ∣ ∣ I ( p i ∈ I ) L_{center}=\frac{1}{N}\sum_{i=1}^N||\Delta x_i−\Delta x^∗_i||I(pi\in I) Lcenter=N1i=1NΔxiΔxiI(piI)
三个网络模块介绍完,接下来说明它们的联合优化:

多任务学习损失函数:

L m u l t i − t a s k = λ 1 L k e y p o i n t s + λ 2 L s e m a n t i c + λ 3 L c e n t e r L_{multi-task}=λ_1 L_{keypoints}+λ_2L_{semantic}+λ_3L_{center} Lmultitask=λ1Lkeypoints+λ2Lsemantic+λ3Lcenter

具体网络结构

  • 特征提取模块:

    使用带有ImageNet预训练的ResNet34的PSPNet来提取RGB图像中的外观信息。用PointNet++提取点云及其法线映射中的几何信息,再通过DenseFusion进一步融合,以获得每个点的组合特征。处理后,每个点p_i有特征f_i.

  • M_k模块:

    3D关键点是3D模型上选取的。以前的3D关键点选的都是目标的8个角点,然而,这些边界框角是虚拟点,它们远离物体上的点,不利于6D位姿参数估计。参考PVNet,用FPS(最远点采样)算法选取。具体来说,通过在一个空的关键点集合中添加对象模型的中心点来初始化选择过程,然后通过在网格上重复添加一个距离所有选择的关键点最远的点来更新它,直到获得M个关键点

最小二乘法拟合

给定一个对象的两个点集,其中一个点集来自相机坐标系中检测到的M个关键点{kp_j},j=1~M,另一个点来自目标坐标系对应的点,6D位姿估计模块采用最小二乘拟合算法对位姿参数(R, t)进行计算,通过最小化以下平方损失来求得R和t :
L l e a s t − s q u a r e s = ∑ j = 1 M ∣ ∣ k p j − ( R ⋅ k p j " + t ) ∣ ∣ 2 L_{least-squares}=\sum_{j=1}^M||kp_j−(R·kp_j^"+t)||^2 Lleastsquares=j=1Mkpj(Rkpj"+t)2

实验内容

下表给出了在YCB-Video数据集上的量化评估结果。本文方法(PVN3D即使在没有借助任何迭代优化算法时也能大幅超越其他方法;而在迭代优化算ICP的加持下,本文方法(PVN3D+ICP)取得了更好的性能;且对于遮挡情况的鲁棒性也很好

在这里插入图片描述

下表给出使用ground truth分割的评估结果,PVN3D依然取得最佳性能。

在这里插入图片描述

下图展示随着物品被遮挡比例的增加,不同方法的表现性能曲线。可见本文方法在物品被大量遮挡的场景下表现更加稳定。

在这里插入图片描述

下表对比了基于3D关键点范式的方法和基于其他范式方法的性能,在相同的输入和神经网络架构下,基于3D关键点的方法(3D KP)性能远超直接回归位姿参数的方法(RT),基于2D关键点的方法2D KP;2D KPC;PVNet)以及基于稠密对应关系的方法(Corr)。本文相信基于3D关键点的位姿估计范式是一个极具潜力的研究方向,值得更多深入的研究。

在这里插入图片描述

下表的内容表示,联合训练两种任务的三个模块(M_k,M_s,M_c)能让网络学出更好的表征(多任务联合训练互相促进,这个现象很常见),从而在语义分割和位姿估计任务上能相互促进,彼此提升性能。

在这里插入图片描述

结论

提出一种新的基于深度3D关键点投票网络的6D位姿估计算法,其性能在两大公开基准上大幅超越先前所有方法。本文同样表明,通过联合训练语义分割和3D关键点两种任务可以学出更好的表征从而提升各个任务的性能。在解决6D位姿估计问题上,基于3D关键点的方法是一个极具潜力且值得深入研究的方向。

Reference

https://baijiahao.baidu.com/s?id=1664823635618324459&wfr=spider&for=pc

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值