论文解读《ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework》

论文:《ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework》
Code:https://github.com/ganwanshui/es6d(29 star)

该作者硕士论文:2021年中国科学院大学的《面向机械臂抓取应用的高精度目标 6D 位姿估计》

摘要:

  • 使用XYZNet全卷积网络从RGB-D数据中有效地提取逐点特征,并在没有任何后期细化的情况下直接回归6D姿态,计算成本低。

    对于RGB和点云特征融合来说,论文《Pointvoxel cnn for efficient 3d deep learning》证明,一个有效的网络应该避免随机存储器访问(索引操作是低效的),这是PVN3D和DenseFusion中密集融合网络的计算瓶颈。 => XYZNet。

    深度图像被转换为XYZ贴图,该贴图与RGB图像严格对齐,如图2所示。因此,可以用2D卷积核同时提取RGB和点云的局部特征。与[21]中基于RGB-D的方法不同,XYZ地图被传播到后层,以保留局部特征的空间信息。然后,利用基于CNN的PointNet模块对具有局部特征的点云进行编码。最后,对不同的模态特征进行聚合。

  • 在对称对象的情况下,一个对象具有多个真实姿态,并且这种一对多关系可能导致估计模糊。为了解决这个模糊问题,本文设计了一个对称不变的姿态距离度量,称为平均(最大)分组基元距离A(M)GPD,该损失可以使回归网络收敛到正确的状态。

    当使用L1损失来训练对称物体时(该物体有多个真实姿态),它会收敛到预测这多个姿态的平均值状态,而这个状态时没有任何意义的。 => 损失函数应满足以下条件:

    • 将loss surface中的所有最小值都映射到正确姿态;

    • 应是连续的,因为深度网络只能近似连续函数;(常用的处理对称问题的ADD-S函数在部分情况下不满足上一个条件,如下图所示)

      image-20231026181134939

    本文的解决方案就是设计一种新的姿态距离度量,该度量在3D度量空间(例如米)中满足上面两个条件。为此,本文为任意对象引入了一种新的形状表示,称为分组基元(GP)。GP只与对称物体的多个真实姿态相关联,而忽略形状的细节。然后,我们将对称对象分为五类,并给出相应的距离度量,称为平均(最大)分组基元距离 A(M)GPD。对于典型的对称物体,用数值方法和可视化方法验证了A(M)GPD的有效性。

网络架构:

image-20231026221449309
  • 第一阶段:利用PoseCNN的分割网络来获得目标对象的掩码和边界框,由边界框裁剪的每个掩模和RGB-D图像块被传输到第二阶段。
  • 第二阶段,使用上述ES6D实时框架来估计姿态:
    • 首先,在归一化之后将 masked depth pixels 变换为XYZ映射;
    • 其次,XYZNet 从 RGB patch 和 XYZ map 的串联中提取逐点特征;
    • 然后,利用三个卷积头来预测逐点平移偏移、四元数和置信度。
    • 最后,选择具有最大置信度的姿势作为最终结果。

(感觉跟DenseFusion的整体处理流程类似,但是具体方法不一样,而且没有最后的精化操作)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值