深度学习6D姿态估计pose estimation分类

最近看了几篇6D姿态估计的文章,对他们做个分类。
6D姿态估计做的就是估计出物体相对于相机的姿态,比如translation,rotation.
6D姿态估计就是估计出物体相对于相机的姿态。他们有几种分类方式

  • 1 实现方式分:1)vote 估计方式 2)keypoint方式 3)latent space方式。
  • 2 问题设置分:1) seen object pose estimation; 2) unseen object pose estimation
  • 3 input分:1)rgb only; 2) depth only; 3) rgb and depth

评价指标

通常都用 average distance metric
R R R表示gt的rotation, T T T表示gt的translation,用 R ^ \hat R R^表预测的rotation, T ^ \hat T T^ 表预测的translation
d = 1 m ∑ x ∈ M ∣ ∣ ( R x + T ) − ( R ^ x + T ^ ) d = \frac{1}{m} \sum_{x \in M } || (Rx + T) - (\hat R x + \hat T) d=m1xM(Rx+T)(R^x+T^)
M M M denotes the set of 3D model points and m m m is the number of points

对于对称物体
d = 1 m ∑ x 1 ∈ M m i n x 2 ∈ M ∣ ∣ ( R x 1 + T ) − ( R ^ x 2 + T ^ ) d = \frac{1}{m} \sum_{x_1 \in M } min_{x_2 \in M}|| (Rx_1 + T) - (\hat R x_2 + \hat T) d=m1x1Mminx2M(Rx1+T)(R^x2+T^)
这里可以理解为不用每个点都对应上,而是对应到最像的那个位置。

1、vote方式

1.1 PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

文章的创新点是

  • 1.提出了PoseCNN,PoseCNN物体的中心点是通过每个像素点投票得到,可以很好地处理遮挡问题。

这篇文章中translation部分,先通过投票得到物体的中心,再预测物体距离相机的距离。rotation部分通过回归得到。
PoseCNN分成了特征提取和后面的multi task学习。有labels,translation,rotation学习。

1.1.1 label分支,对每个pixel预测他所属的类的分数
1.1.2 translation分支
  • 1 霍夫投票层:用于确定中心点。首先采样物体中心点,两个像素点预测的中心点方向的交线就是中心点。然后该类的所有点会对中心点投票得分,得分代表了该pixel是中心的可能性。得到图片上的中心位置后,可以通过坐标系转化的关系,得到物体相对相机的 ( x , y ) (x,y) (x,y)位置。
  • 2 深度:内部点的深度平均值。
1.1.3 rotation分支

rotation用上了上面霍夫投票的bounding box,还用了第一阶段的分割信息,对前面提取的特征进行了’crop and pooling’,然后预测了每个类的方向。
在这里插入图片描述

1.2 DenseFusion: 6DObject Pose Estimation by Iterative Dense Fusion

在这里插入图片描述

1.3 PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

这一篇发在2019的CVPR
在这里插入图片描述

2 keypoint方式

3 latent space 方式

这个方法主要用在unseen object pose estimation。

3.1 Learning Canonical Shape Space for Category-Level 6D Object Pose and Size Estimation

这篇文章的思路很正。
在FoldingNet的编码器和解码器之间添加一个采样层,将他转成为VAE。(用上VAE网络的泛化性能应该更好?)
Canonical Shape Space部分训练的时候用Canonical point cloud训练。这部分训练出vae和重建
Learning view-factorizing RGBD embedding,加上场景中的rgb和depth图(mask-rcnn)

未完待续。。。

  • 8
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "Single-Stage 6D Object Pose Estimation"算法是一种用于估计实物物体的三维位置和姿态的机器视觉算法。它可以帮助机器人和自动化系统准确地定位和定位实物物体,从而更好地执行物体抓取和放置任务。它是一种单阶段算法,可以在一次传感器观测中估计出物体的精确三维位置和姿态。 ### 回答2: “Single-Stage 6D Object Pose Estimation”(单阶段6D物体姿态估计)算法是一种用于计算机视觉领域的算法,它旨在准确地估计物体在三维空间中的位置和姿态。 这个算法的关键思想是通过分析和理解物体在图像中的特征和形状信息来推断物体的姿态。相比于传统的多阶段姿态估计算法,这个算法不需要人工设定特征点或者先验知识,而是通过深度学习的方式自动地学习和提取特征。 在实施过程中,首先使用卷积神经网络(Convolutional Neural Network,CNN)对输入的图像进行特征提取。然后利用这些特征,结合传统的计算机视觉方法,推断物体的位置和姿态。具体地说,算法会以端到端的方式学习物体的边界框、姿态和置信度等关键信息。 “Single-Stage 6D Object Pose Estimation”算法的一个重要特点是能够处理多物体姿态估计问题。它可以同时估计多个物体在图像中的位置和姿态,而不会受到物体之间相互干扰的影响。这一特性使得该算法在实际应用中非常有价值,例如在机器人视觉、增强现实和自动驾驶等领域。 总之,“Single-Stage 6D Object Pose Estimation”算法以其准确性和高效性在计算机视觉领域引起了广泛关注,并为物体识别、场景理解和自动导航等任务提供了一种新的解决方案。 ### 回答3: “Single-Stage 6D Object Pose Estimation”算法是一种用于物体姿态估计的单阶段算法。姿态估计计算机视觉领域的一个重要任务,目标是确定物体在三维空间中的位置和方向。 传统的物体姿态估计算法通常需要多个阶段的处理,例如物体检测、关键点提取和姿态回归等。而“Single-Stage 6D Object Pose Estimation”算法通过一阶段的处理直接输出物体在三维空间中的姿态信息,简化了整个过程。 该算法的核心是深度学习模型,通常使用卷积神经网络(CNN)进行物体检测和姿态估计。首先,通过输入图像,使用CNN模型进行物体检测,获取物体的二维边界框和关键点。然后,通过卷积和全连接层,提取特征表示并将其传递给下一个阶段。 接下来,使用姿态回归网络从特征表示中预测物体的三维位姿。这个回归网络通常由多个全连接层组成,将特征表示映射到物体的位置和方向。最后,根据预测得到的姿态信息,可以确定物体在三维空间中的位置和朝向。 相比于传统的多阶段方法,“Single-Stage 6D Object Pose Estimation”算法具有训练和预测速度快的优势,并且能够提供准确的姿态估计结果。这种算法在许多实际应用中具有重要意义,如机器人操作、增强现实和自动驾驶等领域。这种算法的发展为物体姿态估计提供了更高效、更精确的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值