【paper】DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion 6D姿态估计

组会被分到讲这篇论文,从来没接触过姿态估计相关的东西,本来还有点抵触。但注意到是李飞飞团队做的,就还是认真看了一下。看了之后发现还是很有收获的,就在这里记录一下。

一、6D 姿态估计

6D指的是6个自由度,旋转的3个自由度+平移的3个自由度,需要估计的目标姿态是相对于相机的坐标系来定义。
6D姿态估计有很多重要的现实应用,例如机器人抓取与控制、自动导航、增强现实等。

二、Contribution

这篇论文主要是两个contribution,分别对应之前研究工作中的两个问题:

  1. 重度遮挡的case 效果不好
  2. 高耗时的refine,实时性不足

第一点问题,之前的方法一般使用图像块计算全局特征或者2D边界框,对于重度遮挡的case,原始图像块中的信息是有污染的——会参杂别的物体的信息——这样得到的全局特征就会不准确,从而造成估计姿态的不准确。而论文通过在像素级别构造特征——嵌入(embed)、融合(fuse) RGB颜色特征和点云几何特征(由深度值D构造)——并引入置信度参数来剔除污染信息,从而在重度遮挡的情况下也能得到准确的姿态估计。
第二点问题,之前使用的refine方法与姿态估计的主体网络是脱节的,因此无法和最终目标函数联合优化,并且计算也比较慢,导致无法满足运算的实时性要求。这篇论文提出了一种基于网络的迭代的refine方法,极大地提高了模型性能,保证了实时的处理速度。

三、网络结构

网络结构
refine网络结构
整个模型的架构主要包含两个阶段:

  1. 第一阶段将彩色图像作为输入,对每个已知的物体进行语义分割。按分割后的结果裁剪原图片和点云(由深度像素转换而成),将两个裁剪结果导入第二阶段。这里segmentation的网络直接使用了别的论文的成果。
  2. 第二阶段处理分割的结果并估计目标的 6D 姿态,包含四个部分:
    ① 一个处理颜色信息的全卷积网络,图像块中的每个像素被映射成一个颜色特征(128维);
    ② 一个基于 PointNet 的网络,将带有裁剪后的 3D 点云中的每个点处理为一个几何特征(128维);
    ③ 一个像素级的 fusion 网络,利用颜色和几何特征计算一个全局特征并将三种特征合并后送入pose predictor进行6D姿态估计。每个pixel估计得到一组结果(旋转参数、平移参数和置信度),也就是说如果分割得到的物体有500个像素点,那么这一步会得到500组姿态估计参数。选取置信度最高的pose作为最终的pose。置信度是通过无监督的方法学习,详见Loss部分的内容;
    ④ 一个迭代的refine方法,通过网络迭代地微调估计结果。将前三步计算得到姿态参数应用到点云上,计算得到新的点云位置,用PointNet重新计算几何特征,联合计算的颜色特征一起送入fusion网络,将得到的特征送入pose residual estimator,计算新的微调姿态参数,再更新点云,再算几何特征,循环迭代。refine网络部分的特征计算与前面的特征计算用的是不太一样的网络结构。

网络结构的部分细节:

  • pose predictor是三个4层的1x1卷积网络,旋转参数、平移参数和置信度分别对应一个卷积网络;
  • pse residual estimator是两个3层的全连接网络,旋转参数和平移参数分别对应一个全连接网络;

四、Loss

Loss
计算逐像素点的loss。公式很好理解,下标i表示由第i个点的特征预测得到的姿态参数P的Loss。
区分了对称物体和非对称物体,对于非对称物体直接计算对应像素点之间的距离,而对于对称物体,因为会有歧义,

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "Single-Stage 6D Object Pose Estimation"算法是一种用于估计实物物体的三维位置和姿态的机器视觉算法。它可以帮助机器人和自动化系统准确地定位和定位实物物体,从而更好地执行物体抓取和放置任务。它是一种单阶段算法,可以在一次传感器观测中估计出物体的精确三维位置和姿态。 ### 回答2: “Single-Stage 6D Object Pose Estimation”(单阶段6D物体姿态估计)算法是一种用于计算机视觉领域的算法,它旨在准确地估计物体在三维空间中的位置和姿态。 这个算法的关键思想是通过分析和理解物体在图像中的特征和形状信息来推断物体的姿态。相比于传统的多阶段姿态估计算法,这个算法不需要人工设定特征点或者先验知识,而是通过深度学习的方式自动地学习和提取特征。 在实施过程中,首先使用卷积神经网络(Convolutional Neural Network,CNN)对输入的图像进行特征提取。然后利用这些特征,结合传统的计算机视觉方法,推断物体的位置和姿态。具体地说,算法会以端到端的方式学习物体的边界框、姿态和置信度等关键信息。 “Single-Stage 6D Object Pose Estimation”算法的一个重要特点是能够处理多物体姿态估计问题。它可以同时估计多个物体在图像中的位置和姿态,而不会受到物体之间相互干扰的影响。这一特性使得该算法在实际应用中非常有价值,例如在机器人视觉、增强现实和自动驾驶等领域。 总之,“Single-Stage 6D Object Pose Estimation”算法以其准确性和高效性在计算机视觉领域引起了广泛关注,并为物体识别、场景理解和自动导航等任务提供了一种新的解决方案。 ### 回答3: “Single-Stage 6D Object Pose Estimation”算法是一种用于物体姿态估计的单阶段算法。姿态估计是计算机视觉领域的一个重要任务,目标是确定物体在三维空间中的位置和方向。 传统的物体姿态估计算法通常需要多个阶段的处理,例如物体检测、关键点提取和姿态回归等。而“Single-Stage 6D Object Pose Estimation”算法通过一阶段的处理直接输出物体在三维空间中的姿态信息,简化了整个过程。 该算法的核心是深度学习模型,通常使用卷积神经网络(CNN)进行物体检测和姿态估计。首先,通过输入图像,使用CNN模型进行物体检测,获取物体的二维边界框和关键点。然后,通过卷积和全连接层,提取特征表示并将其传递给下一个阶段。 接下来,使用姿态回归网络从特征表示中预测物体的三维位姿。这个回归网络通常由多个全连接层组成,将特征表示映射到物体的位置和方向。最后,根据预测得到的姿态信息,可以确定物体在三维空间中的位置和朝向。 相比于传统的多阶段方法,“Single-Stage 6D Object Pose Estimation”算法具有训练和预测速度快的优势,并且能够提供准确的姿态估计结果。这种算法在许多实际应用中具有重要意义,如机器人操作、增强现实和自动驾驶等领域。这种算法的发展为物体姿态估计提供了更高效、更精确的解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值