论文:《ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework》
Code:https://github.com/ganwanshui/es6d(29 star)该作者硕士论文:2021年中国科学院大学的《面向机械臂抓取应用的高精度目标 6D 位姿估计》
摘要:
-
使用XYZNet全卷积网络从RGB-D数据中有效地提取逐点特征,并在没有任何后期细化的情况下直接回归6D姿态,计算成本低。
对于RGB和点云特征融合来说,论文《Pointvoxel cnn for efficient 3d deep learning》证明,一个有效的网络应该避免随机存储器访问(索引操作是低效的),这是PVN3D和DenseFusion中密集融合网络的计算瓶颈。 => XYZNet。
深度图像被转换为XYZ贴图,该贴图与RGB图像严格对齐,如图2所示。因此,可以用2D卷积核同时提取RGB和点云的局部特征。与[21]中基于RGB-D的方法不同,XYZ地图被传播到后层,以保留局部特征的空间信息。然后,利用基于CNN的PointNet模块对具有局部特征的点云进行编码。最后,对不同的模态特征进行聚合。
-
在对称对象的情况下,一个对象具有多个真实姿态,并且这种一对多关系可能导致估计模糊。为了解决这个模糊问题,本文设计了一个对称不变的姿态距离度量,称为平均(最大)分组基元距离A(M)GPD,该损失可以使回归网络收敛到正确的状态。
当使用L1损失来训练对称物体时(该物体有多个真实姿态),它会收敛到预测这多个姿态的平均值状态,而这个状态时没有任何意义的。 => 损失函数应满足以下条件:
-
将loss surface中的所有最小值都映射到正确姿态;
-
应是连续的,因为深度网络只能近似连续函数;(常用的处理对称问题的ADD-S函数在部分情况下不满足上一个条件,如下图所示)
本文的解决方案就是设计一种新的姿态距离度量,该度量在3D度量空间(例如米)中满足上面两个条件。为此,本文为任意对象引入了一种新的形状表示,称为分组基元(GP)。GP只与对称物体的多个真实姿态相关联,而忽略形状的细节。然后,我们将对称对象分为五类,并给出相应的距离度量,称为平均(最大)分组基元距离 A(M)GPD。对于典型的对称物体,用数值方法和可视化方法验证了A(M)GPD的有效性。
-
网络架构:
- 第一阶段:利用PoseCNN的分割网络来获得目标对象的掩码和边界框,由边界框裁剪的每个掩模和RGB-D图像块被传输到第二阶段。
- 第二阶段,使用上述ES6D实时框架来估计姿态:
- 首先,在归一化之后将 masked depth pixels 变换为XYZ映射;
- 其次,XYZNet 从 RGB patch 和 XYZ map 的串联中提取逐点特征;
- 然后,利用三个卷积头来预测逐点平移偏移、四元数和置信度。
- 最后,选择具有最大置信度的姿势作为最终结果。
(感觉跟DenseFusion的整体处理流程类似,但是具体方法不一样,而且没有最后的精化操作)