论文阅读笔记《HybridPose: 6D Object Pose Estimation under Hybrid Representations》

核心思想

  本文提出一种基于混合特征表示的位姿估计方法(HybridPose),融合了关键点、边缘和对称点三种类型的特征,通过构建2D图像特征和3D空间特征之间的对应关系,利用EPnP算法求解目标位姿。相比于仅利用关键点特征进行位姿估计的方法而言,引入边缘和对称点特征能够提高位姿估计的稳定性。边缘特征并不是指目标物体的边缘轮廓,而是关键点之间的连线,该特征能够在图像中的关键点比较杂乱时,提高位姿估计的稳定性。而对称点特征则是描述了物体最显著的反射对称平面上对称点之间的对应关系,由于对称点数量较多,因此即使存在较大的误匹配率,仍然能够提供足够的约束。获得三种特征之后,作者先利用基于EPnP算法的位姿估计模块对位姿进行初步估计,然后利用一个鲁棒的规范化函数来筛除预测元素中的异常值,得到更准确的位姿估计结果。

实现过程

在这里插入图片描述
  首先,利用关键点预测网络 f θ K f_{\theta}^{\mathcal{K}} fθK从输入图像中预测得到 ∣ K ∣ |\mathcal{K}| K个二维关键点坐标,关键点预测网络采用预训练好的PVNet算法。然后利用边缘预测网络 f ϕ E f_{\phi}^{\mathcal{E}} fϕE预测得到 ∣ E ∣ = ∣ K ∣ ⋅ ( ∣ K ∣ − 1 ) 2 |\mathcal{E}|=\frac{|\mathcal{K}|\cdot(|\mathcal{K}|-1)}{2} E=2K(K1)个二维边缘向量,每个边缘向量是关键点构成的图的一个边。最后,利用对称点预测网络 f γ S f_{\gamma}^{\mathcal{S}} fγS预测 ∣ S ∣ |\mathcal{S}| S组对称点的坐标,每组对称点包含两个二维点。对称点预测网络利用PVNet算法提供目标物体的分割掩码,再利用FlowNet2.0算法得到成对的对称点。由于每个三维的物体都包含很多的对称平面,对称点预测网络只输出最显著的(对称点最多的)对称平面上的对称点。
  得到三种中间特征后,就可以进行位姿估计了。已知在目标物体的标准坐标系中关键点的三维坐标为 p ˉ k \bar{p}_k pˉk,对称平面的法向量为 n ˉ r \bar{\mathbf{n}}_r nˉr,而预测网络输出的中间特征对应的齐次坐标分别为 p ^ k \hat{p}_k p^k v ^ e \hat{v}_e v^e q ^ s , 1 \hat{q}_{s,1} q^s,1 q ^ s , 2 \hat{q}_{s,2} q^s,2(对称点中的两个点)。那么根据位姿矩阵 [ R ∣ T ] [R|T] [RT]就可以构建二维图像特征和三维空间特征之间的对应关系,并得到预测结果和真实值之间的差异向量:
在这里插入图片描述
其中 e t e_t et e s e_s es表示边缘 e e e的两个端点, v ˉ e = p ˉ e t − p ˉ e s \bar{v}_e=\bar{p}_{e_t}-\bar{p}_{e_s} vˉe=pˉetpˉes。利用EPnP算法(详细介绍参看https://zhuanlan.zhihu.com/p/59070440)可以生成初始位姿。结合预测得到的三种中间特征,可以获得线性方程 A x = 0 Ax=0 Ax=0其中 A A A是一个矩阵,其维度为 ( 3 ∣ K ∣ + 3 ∣ E ∣ + ∣ S ∣ ) × 12 (3|\mathcal{K}|+3|\mathcal{E}|+|\mathcal{S}|)\times12 (3K+3E+S)×12 x = [ r 1 T , r 2 T , r 3 T , t T ] 12 T x=[r_1^T,r_2^T,r_3^T,t^T]^T_{12} x=[r1T,r2T,r3T,tT]12T是包含旋转和平移参数的向量,12是旋转和平移矩阵中未知参数的维度。 A A A的维度 ( 3 ∣ K ∣ + 3 ∣ E ∣ + ∣ S ∣ ) (3|\mathcal{K}|+3|\mathcal{E}|+|\mathcal{S}|) (3K+3E+S),我理解的是每个关键点可以提供3个约束方程(3D坐标),每个边缘可以提供3个约束方程(3D向量),每组对称点提供1个约束方程(法线向量)。为了平衡三种中间特征的重要性,给公式(2)和(3)分别赋予权重参数 α E \alpha_E αE α S \alpha_S αS。根据EPnP算法,可以计算 x x x:
在这里插入图片描述
其中 v i v_i vi表示 A A A的第 i i i小的右奇异向量,当 N = 1 N=1 N=1时, x = v 1 x=v_1 x=v1就是最优解,然而受到预测中噪声的影响,取 N = 1 N=1 N=1的结果表现很差。因此本文与EPnP算法相同,取 N = 4 N=4 N=4。为了计算最优解 x x x,需要以交替优化的方式优化中间变量 γ i \gamma_i γi和旋转矩阵 R R R,目标函数如下
在这里插入图片描述
其中 R i R_i Ri v i v_i vi中的前九个参数,得到最优的 γ i \gamma_i γi后,就可以将仿射变换 ∑ i = 1 4 γ i R i \sum_{i=1}^4\gamma_i R_i i=14γiRi映射为刚性变换。
  初步位姿估计仍不能够排除预测中异常点的影响,因此需要对预测结果进行优化。利用已获得目标初始位姿 R i n i t , t i n i t R^{init},t^{init} Rinit,tinit,可以通过局部优化的方式来获得精细化的目标位姿,引入两个差异向量来表示投影误差:
在这里插入图片描述
P R , t \mathcal{P}_{R,t} PR,t表示利用当前位姿 ( R , t ) (R,t) (R,t)将3D坐标点投影到2D图像坐标的过程。为了筛除掉预测结果中的异常值,本文采用German-Mcclure(GM)鲁棒函数:
在这里插入图片描述
通过求解以下非线性优化问题,来得到精细化的位姿估计结果:
在这里插入图片描述
其中 β K , β E , β S \beta_{\mathcal{K}},\beta_{\mathcal{E}},\beta_{\mathcal{S}} βK,βE,βS表示超参数, Σ k \Sigma_k Σk Σ e \Sigma_e Σe分别表示关键点和边缘预测结果的协方差信息, ∥ x ∥ A = ( x T A x ) 1 2 \|x\|_A=(x^TAx)^{\frac{1}{2}} xA=(xTAx)21。通过高斯-牛顿迭代法,从初始值 R i n i t , t i n i t R^{init},t^{init} Rinit,tinit开始优化。
本文的位姿估计的效果为
在这里插入图片描述

创新点

  • 融合三种中间特征(关键点、边缘、对称点)对物体位姿提供更多的约束条件
  • 利用EPnP算法求解初步位姿,再利用GM鲁棒函数对位姿进行优化

算法评价

  本文最大的创新在于不仅使用关键点特征对位姿进行求解,而是考虑了多种特征,提出了多种特征的提取方法,并将其有效的整合在同一个网络中。通过对EPnP算法进行改进,使其能够满足多种类型特征对应关系的位姿求解。从实验结果来看,边缘和对称点特征的引入能够有效的改善位姿估计的稳定性,但是网络的训练需要更加精细的设计。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

### 回答1: "Single-Stage 6D Object Pose Estimation"算法是一种用于估计实物物体的三维位置和姿态的机器视觉算法。它可以帮助机器人和自动化系统准确地定位和定位实物物体,从而更好地执行物体抓取和放置任务。它是一种单阶段算法,可以在一次传感器观测中估计出物体的精确三维位置和姿态。 ### 回答2: “Single-Stage 6D Object Pose Estimation”(单阶段6D物体姿态估计)算法是一种用于计算机视觉领域的算法,它旨在准确地估计物体在三维空间中的位置和姿态。 这个算法的关键思想是通过分析和理解物体在图像中的特征和形状信息来推断物体的姿态。相比于传统的多阶段姿态估计算法,这个算法不需要人工设定特征点或者先验知识,而是通过深度学习的方式自动地学习和提取特征。 在实施过程中,首先使用卷积神经网络(Convolutional Neural Network,CNN)对输入的图像进行特征提取。然后利用这些特征,结合传统的计算机视觉方法,推断物体的位置和姿态。具体地说,算法会以端到端的方式学习物体的边界框、姿态和置信度等关键信息。 “Single-Stage 6D Object Pose Estimation”算法的一个重要特点是能够处理多物体姿态估计问题。它可以同时估计多个物体在图像中的位置和姿态,而不会受到物体之间相互干扰的影响。这一特性使得该算法在实际应用中非常有价值,例如在机器人视觉、增强现实和自动驾驶等领域。 总之,“Single-Stage 6D Object Pose Estimation”算法以其准确性和高效性在计算机视觉领域引起了广泛关注,并为物体识别、场景理解和自动导航等任务提供了一种新的解决方案。 ### 回答3: “Single-Stage 6D Object Pose Estimation”算法是一种用于物体姿态估计的单阶段算法。姿态估计是计算机视觉领域的一个重要任务,目标是确定物体在三维空间中的位置和方向。 传统的物体姿态估计算法通常需要多个阶段的处理,例如物体检测、关键点提取和姿态回归等。而“Single-Stage 6D Object Pose Estimation”算法通过一阶段的处理直接输出物体在三维空间中的姿态信息,简化了整个过程。 该算法的核心是深度学习模型,通常使用卷积神经网络(CNN)进行物体检测和姿态估计。首先,通过输入图像,使用CNN模型进行物体检测,获取物体的二维边界框和关键点。然后,通过卷积和全连接层,提取特征表示并将其传递给下一个阶段。 接下来,使用姿态回归网络从特征表示中预测物体的三维位姿。这个回归网络通常由多个全连接层组成,将特征表示映射到物体的位置和方向。最后,根据预测得到的姿态信息,可以确定物体在三维空间中的位置和朝向。 相比于传统的多阶段方法,“Single-Stage 6D Object Pose Estimation”算法具有训练和预测速度快的优势,并且能够提供准确的姿态估计结果。这种算法在许多实际应用中具有重要意义,如机器人操作、增强现实和自动驾驶等领域。这种算法的发展为物体姿态估计提供了更高效、更精确的解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值