论文解读《ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework》-CSDN博客

本文链接：https://blog.csdn.net/ZYLer_/article/details/134114448

论文：《ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework》
Code：https://github.com/ganwanshui/es6d（29 star）

该作者硕士论文：2021年中国科学院大学的《面向机械臂抓取应用的高精度目标 6D 位姿估计》

摘要：

使用XYZNet全卷积网络从RGB-D数据中有效地提取逐点特征，并在没有任何后期细化的情况下直接回归6D姿态，计算成本低。

对于RGB和点云特征融合来说，论文《Pointvoxel cnn for efficient 3d deep learning》证明，一个有效的网络应该避免随机存储器访问（索引操作是低效的），这是PVN3D和DenseFusion中密集融合网络的计算瓶颈。 => XYZNet。

深度图像被转换为XYZ贴图，该贴图与RGB图像严格对齐，如图2所示。因此，可以用2D卷积核同时提取RGB和点云的局部特征。与[21]中基于RGB-D的方法不同，XYZ地图被传播到后层，以保留局部特征的空间信息。然后，利用基于CNN的PointNet模块对具有局部特征的点云进行编码。最后，对不同的模态特征进行聚合。
在对称对象的情况下，一个对象具有多个真实姿态，并且这种一对多关系可能导致估计模糊。为了解决这个模糊问题，本文设计了一个对称不变的姿态距离度量，称为平均（最大）分组基元距离A（M）GPD，该损失可以使回归网络收敛到正确的状态。
当使用L1损失来训练对称物体时（该物体有多个真实姿态），它会收敛到预测这多个姿态的平均值状态，而这个状态时没有任何意义的。 => 损失函数应满足以下条件：
- 将loss surface中的所有最小值都映射到正确姿态；
- 应是连续的，因为深度网络只能近似连续函数；（常用的处理对称问题的ADD-S函数在部分情况下不满足上一个条件，如下图所示）
本文的解决方案就是设计一种新的姿态距离度量，该度量在3D度量空间（例如米）中满足上面两个条件。为此，本文为任意对象引入了一种新的形状表示，称为分组基元（GP）。GP只与对称物体的多个真实姿态相关联，而忽略形状的细节。然后，我们将对称对象分为五类，并给出相应的距离度量，称为平均（最大）分组基元距离 A(M)GPD。对于典型的对称物体，用数值方法和可视化方法验证了A(M)GPD的有效性。

网络架构：

第一阶段：利用PoseCNN的分割网络来获得目标对象的掩码和边界框，由边界框裁剪的每个掩模和RGB-D图像块被传输到第二阶段。
第二阶段，使用上述ES6D实时框架来估计姿态：
- 首先，在归一化之后将 masked depth pixels 变换为XYZ映射；
- 其次，XYZNet 从 RGB patch 和 XYZ map 的串联中提取逐点特征；
- 然后，利用三个卷积头来预测逐点平移偏移、四元数和置信度。
- 最后，选择具有最大置信度的姿势作为最终结果。

（感觉跟DenseFusion的整体处理流程类似，但是具体方法不一样，而且没有最后的精化操作）