[6D位姿估计] HybridPose: 6D Object Pose Estimation under Hybrid Representations

最新推荐文章于 2024-08-16 09:24:46 发布

john_bh

最新推荐文章于 2024-08-16 09:24:46 发布

阅读量2.7k

点赞数 4

本文链接：https://blog.csdn.net/john_bh/article/details/103998704

版权

6DoF Pose Estimation 专栏收录该内容

12 篇文章 16 订阅

订阅专栏

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文链接：HybridPose: 6D Object Pose Estimation under Hybrid Representations
作者及团队：德克萨斯大学奥斯丁分校
会议及时间：CVPR 2020
code：https://github.com/chensong1995/HybridPose

文章目录

1. 主要贡献

PVNet，PoseCNN，PoseNet 等方法除了ground-truth姿势标签，结合关键点作为中间监督，促进顺利的模型训练，基于关键点的方法建立在两个假设之上：

机器学习模型可以准确预测二维关键点位置
这些预测提供了足够的约束来回归潜在的6D姿态

在许多实际环境中，这两种假设很容易被打破。由于对象遮挡和预测网络的表示限制，通常无法仅从RGB图像准确预测2D关键点坐标。

作者提出了HybridPose一种新颖的6D对象姿态估计方法。
HybridPose利用hybrid intermediate representation在输入图像中表达不同的几何信息，包括keypoints，edge vectors 和 symmetry correspondences。与单一表示相比，当一种类型的预测表示不准确时（例如，由于存在遮挡），hybrid representation 允许姿势回归利用更多不同的特征。 HybridPose使用的不同中间表示都可以通过相同的简单神经网络进行预测，而预测的中间表示中的离群值可以通过鲁棒的回归模块进行过滤。
与最新的姿势估计方法相比，HybridPose在运行时间和准确性上均具有可比性。例如，在Occlusion Linemod [3]数据集上，HybridPose 方法实现了30 fps的预测速度，平均ADD（-S）准确度为47.5％。

2. Related Works

Edge features
边缘可以捕获重要的图像特征，如物体轮廓[2]、显著边缘[23]和直线段[45]。与这些低级图像特征不同，HybridPose 利用了相邻关键点之间定义的语义边缘向量。这种表示捕获了关键点之间的关联，并揭示了对象的底层结构，简洁且易于预测。 这种边缘向量比单独的关键点提供了更多的位姿回归约束，在遮挡下具有明显的优势。作者的方法类似于[5]，它预测相邻关键点之间的方向，将关键点连接到人体骨架上。然而，作者预测的方向和大小的边缘矢量，并使用这些矢量来估计物体的姿态。
Symmetry detection from images
对与对称物体的pose 估计，在文章[36,42,6,25,30]中提供了一些解决方法，例如，通过设计在对称变换下不变的损失函数。
Robust regression
通过中间表示的姿态估计对预测中的异常值很敏感，这些异常值是由遮挡和杂波背景引入的[37,32,40]。为了减少位姿误差，一些研究在2D-3D对准阶段为不同的预测元素分配了不同的权重[34,32]。相反，作者的方法还利用鲁棒规范来自动过滤预测元素中的异常值。
除了重权策略，一些基于深度学习的refiners来提高姿态估计性能[19,26,44]。[44, 19]采用点匹配损失，达到较高的精度。[26]利用轮廓信息预测姿态更新。作者的方法考虑了鲁棒目标函数的 critical points and the loss surface，并且不涉及基于递归网络方法中使用的固定的预先确定的迭代计数。

3. Approach

HybridPose 输入一张图像，也只物体类别，相机内参数；输出 6D 相机 pose ( $R_I \in SO(3), t_I \in \mathbb{R}^3$ )。
在这里插入图片描述

3.1 Hybrid Representation

HybridPose 利用三个预测网络 $f^{\mathcal{K}}_{\theta}, f^{\varepsilon}_{\phi}, f^{\mathcal{S}}_{\gamma}$ 分别估计关键点 $\mathcal{K}=\{ p_{k} \}$ ,点之间的边 $\varepsilon = \{v_e \}$ 和 symmetry correspondences between
image pixels $\mathcal{S} = \{(q_{s,1},q_{s,2} \} )$ 。 $\mathcal{K}，\mathcal{\varepsilon}，\mathcal{S}$ 表示在2D, $\theta，\phi，\gamma$ 是可训练参数。

Keypoints
输入图像，输出物体 $\mathcal{K}$ 关键点2D 坐标。 HybridPose集成了PVNet[34]的现成架构，最先进的基于关键点的姿态估计方法，采用投票方案来预测可见和不可见的关键点。除了预测的关键点中的异常值之外，基于关键点的技术的另一个限制是当相邻键点之间的差值（方向和距离）表征对象姿势的重要信息时，不精确的keypoint预测会产生大的姿势错误。
Edges
第二个中间表示，它由沿预定义图的边向量组成，显式地建模每对关键点之间的位移。HybridPose 使用网络 $f^{\varepsilon}_{\phi}(I) \in \mathbb{R}^{2\times |\varepsilon|}$ 预测边向量， $|\varepsilon|$ 表示边的个数，在实验中作者设置为全连接图的边的个数 $|\varepsilon|=\frac{|\mathcal{K}|\dot (|\mathcal{K}-1|)}{2}$ ；
Symmetry correspondences
第三种中间表示 pixel-wise symmetry correspondences。HybridPose扩展了FlowNet 2.0[15]的网络架构，结合了密集的像素流和PVNet预测的语义掩码。由此产生的对称对应是由mask区域内的预测像素流给出的。与前两种表示相比，symmetry correspondences 的数量显著增加，这为遮挡对象提供了丰富的约束条件。 然而，symmetry correspondences 只限制了物体位姿旋转分量的两个自由度。有必要将symmetry correspondences 与其他中间表示结合起来。训练中作者选择原始3D 模型中对称面最多的作为 symmetry correspondences 。
Summary of network design
实验中 $f^{\mathcal{K}}_{\theta}(I), f^{\varepsilon}_{\phi}(I), f^{\mathcal{S}}_{\gamma}(I)$ 是基于 ResNet实现的。除了最后一个卷积层外，所有的可训练参数都是共享的。所以 $f^{\varepsilon}_{\phi}(I) 和 f^{\mathcal{S}}_{\gamma}(I)$ 的引入是 insignificant。

3.2 Pose Regression

类似于最先进的姿态回归方法[35]，HybridPose组合了一个initialization sub-module和一个refinement sub-module。两个子模块都利用了所有预测的元素。refinement sub-module 还利用一个健壮函数对预测元素中的异常值进行建模。
作者将正则坐标系中的三维关键点坐标表示为 $\overline {p}_k ,1\leq k \leq |\mathcal{K}|$ ，将第一个模块的输出，即预测的关键点、边向量和对称对应分别表示为 $p_k \in \mathbb{R}^2 ,1\leq k \leq |\mathcal{K}|$ 、 $v_e \in \mathbb{R}^2,,1\leq e \leq |\mathcal{\varepsilon}|$ 、 $(q_{s,1} \in \mathbb{R}^2 ,q_{s,2} \in \mathbb{R}^2),1\leq s \leq |\mathcal{S}|$ 。
公式也使用齐次坐标(齐次坐标由摄像机内禀矩阵归一化）： $\hat p_k \in \mathbb{R}^3, \hat v_e \in \mathbb{R}^3, \hat q_{s,1} \in \mathbb{R}^3 ,\hat q_{s,2} \in \mathbb{R}^3$ 。

Initialization sub-module
这个子模块利用了 $R_I,t_I)$ 和预测的元素, $R_i,t_I)$ 在仿射空间中，以交替优化的方式投影到 $S E (3)$ 。为此，为每种类型的预测元素引入以下差异向量:

其中 $e_s$ 和 $e_t$ 是边 $e$ 的端点; $\overline v_e=\overline p_{e_t}-\overline p_{e_s} \in \mathbb{R}^3$ ； $\overline n_r \in \mathbb{R}^3$ 是正则系中反射对称平面的法线。

HybridPose修改了EPnP[18]的框架来生成初始姿态。通过组合这三个来自预测元素的约束，生成一个形式为 $A x = 0$ 的线性方程组，其中 $A$ 是矩阵，其维数为 $(3|\mathcal{K}|+3|\varepsilon|+|\mathcal{S}|) \times 12$ 。 $x=[r^T_1,r^T_2,r^T_3,t^T]^T_{12\times 1}$ 是在放射空间中包含旋转和平移参数的向量。为了建模关键点、边向量和对称对应之间的相对重要性，作者分别用超参数 $\alpha _E$ 和 $\alpha _S$ 对(2)和(3)进行缩放，生成 $A$ 。根据EPnP[18]，计算 $x$ 为：

其中 $v_i$ 是 $A$ 的第 $i$ 小的右奇异向量。理想情况下，当预测元素是无噪声时， $N = 1$ 和 $x = v_1$ 是最优解。然而，这种策略在嘈杂的预测下表现不佳。与EPnP[18]相同，作者选择 $N = 4$ 。为了计算最优的 $x$ ，以如下目标函数的交替优化过程对潜变量 $\gamma _i$ 和旋转矩阵 $R$ 进行优化:

其中 $R_i \in \mathbb{R}^{3\times 3}$ 是由 $v_i$ reshaped 得到的9个元素。在得到最优的 $\gamma _i$ 后，投影得到的仿射变换 $\sum^{4}_{i=1} \gamma _i R_i$ 转变为刚性转变。
Refinement sub-module
虽然公式(5) 结合了综合了中间表示，并且可以得到较好的初始化，但它不能直接对预测元素中的异常值进行建模。 另一个限制来自于(1)和(2)，它们不能最小化投影误差(即关于关键点和边)，众所周知，在基于关键点的姿态估计中，投影误差是有效的。Refinement sub-module 执行局部优化来细化目标位姿，作者引入两个包含投影误差的差分向量 $\forall k,e,s$ ：

其中 $\mathcal{P}_{R,t}:\mathbb{R}^3 \to \mathbb{R}^2$ 为由当前位姿 $(R, t)$ 的投影。
为了剔除预测元素中的异常值，考虑一个广义的German-Mcclure(或GM)鲁棒函数：

通过这种设置，HybridPose解决了以下非线性优化问题的姿态优化:

其中 $\beta_{\mathcal{K}}, \beta_{\mathcal{\varepsilon}}, \beta_{\mathcal{S}}$ 分别是关键点，边和 symmetry correspondences 的超参数； $\sum _k, \sum _e$ 表示附加在关键点和边缘预测上的协方差信息。 $||x||_A=(x^T Ax)^{\frac{1}{2}}$ ；当预测的协方差不可用时，简单地设置 $\sum_k = \sum _e = I_2$ ，上述优化问题从 $R_{init} 和 t_{init}$ 出发，采用高斯-牛顿法求解。

3.3 HybridPose Training

Initialization sub-module

由于超参数数量较少，位姿初始化步骤不允许显式表达式，因此采用有限差分法计算数值梯度，即将梯度拟合到当前解周围的超参数样本上。然后应用回溯线搜索进行优化。
Refinement sub-module

4. Experimental Evaluation

4.1 Experimental Setup

Evaluation protocols
ADD(-S)：首先计算预测位姿变换后的两个点集与ground truth位姿变换后的两个点集之间的距离，然后提取平均距离。当目标具有symmetric pose ambiguity 时，从两个变换集之间的最近点计算平均距离。ADD(-S)精度定义为计算的平均距离小于模型直径10%的样本所占百分比。

angular rotation error： $||\frac{log(R^{T}_{gt}R_{I})}{2}||$ ， relative translation error： $\frac{||t_{I}-t_{gt}||}{d}$ 。其中预测的pose $R_{I},t_{I})$ ，ground truth pose： $R_{gt},t_{gt})$ ， $d$ 是物体的直径。

4.2 Analysis of Results

如表1、表2和图3所示，HybridPose可以实现精确的位姿估计。关于Linemod和Occlusion Linemod, HybridPose的平均ADD(-S)精度分别为91.3和47.5。Linemod的结果优于所有的方法，除了一种最先进的方法，它从中间表示回归。Occlusion Linemod的结果优于所有最先进的方法。
在这里插入图片描述

·

4.3. Ablation Study

表3总结了混合姿态在LinMod数据集上使用不同的预测中间表示的结果：
在这里插入图片描述
由表3可以看出：

在keypoints上添加symmetry correspondences会在rotation上带来一些性能提升，translation 误差几乎保持不变，一种解释是symmetry correspondences只约束了三个rotation参数中的两个自由度，对translation 参数没有约束；
在keypoints 和 symmetry correspondences 中添加 edge vectors 可以在rotation和translation估计中获得显著的性能增益。
一种解释是，edge vectors 在rotation和translation 方面提供了更多的约束。edge vectors表示相邻keypoints 的位移，并为回归提供梯度信息，因此在translation 方面比keypoints 提供更多的约束。与symmetry correspondences不同的是，edge vectors对 rotation 参数约束了3个自由度，从而进一步提高了rotation估计的性能。

5. Conclusions and Future Work

这篇文章，作者提出HybridPose，利用keypoint，edge vetors，symmetry correspondences。实验表明了该方法速度上达到了30fps，在数据集LinMod上的accuracy达到了soat。在接下来作者计划扩展 HybridPose包括更多的中间表示，例如：shape primitives, normals, and planar faces。其它可能的方向是以类似于 Path-invariant map networks 的方式在不同表示之间加强一致性，作为网络训练中的自我监督损失。