[6D位姿估计] HybridPose: 6D Object Pose Estimation under Hybrid Representations

转载请注明作者和出处: http://blog.csdn.net/john_bh/

论文链接:HybridPose: 6D Object Pose Estimation under Hybrid Representations
作者及团队: 德克萨斯大学奥斯丁分校
会议及时间:CVPR 2020
code:https://github.com/chensong1995/HybridPose

1. 主要贡献

PVNet,PoseCNN,PoseNet 等方法除了ground-truth姿势标签,结合关键点作为中间监督,促进顺利的模型训练,基于关键点的方法建立在两个假设之上:

  1. 机器学习模型可以准确预测二维关键点位置
  2. 这些预测提供了足够的约束来回归潜在的6D姿态

在许多实际环境中,这两种假设很容易被打破。 由于对象遮挡和预测网络的表示限制,通常无法仅从RGB图像准确预测2D关键点坐标

  • 作者提出了HybridPose一种新颖的6D对象姿态估计方法
    HybridPose利用hybrid intermediate representation在输入图像中表达不同的几何信息,包括keypoints,edge vectors 和 symmetry correspondences。 与单一表示相比,当一种类型的预测表示不准确时(例如,由于存在遮挡),hybrid representation 允许姿势回归利用更多不同的特征。 HybridPose使用的不同中间表示都可以通过相同的简单神经网络进行预测,而预测的中间表示中的离群值可以通过鲁棒的回归模块进行过滤。
  • 与最新的姿势估计方法相比,HybridPose在运行时间和准确性上均具有可比性。 例如,在Occlusion Linemod [3]数据集上,HybridPose 方法实现了30 fps的预测速度,平均ADD(-S)准确度为47.5%。
    在这里插入图片描述

2. Related Works

  1. Edge features
    边缘可以捕获重要的图像特征,如物体轮廓[2]、显著边缘[23]和直线段[45]。与这些低级图像特征不同,HybridPose 利用了相邻关键点之间定义的语义边缘向量。这种表示捕获了关键点之间的关联,并揭示了对象的底层结构,简洁且易于预测。 这种边缘向量比单独的关键点提供了更多的位姿回归约束,在遮挡下具有明显的优势。作者的方法类似于[5],它预测相邻关键点之间的方向,将关键点连接到人体骨架上。然而,作者预测的方向和大小的边缘矢量,并使用这些矢量来估计物体的姿态。
  2. Symmetry detection from images
    对与对称物体的pose 估计,在文章[36,42,6,25,30]中提供了一些解决方法,例如,通过设计在对称变换下不变的损失函数。
  3. Robust regression
    通过中间表示的姿态估计对预测中的异常值很敏感,这些异常值是由遮挡和杂波背景引入的[37,32,40]。为了减少位姿误差,一些研究在2D-3D对准阶段为不同的预测元素分配了不同的权重[34,32]。相反,作者的方法还利用鲁棒规范来自动过滤预测元素中的异常值
    除了重权策略,一些基于深度学习的refiners来提高姿态估计性能[19,26,44]。[44, 19]采用点匹配损失,达到较高的精度。[26]利用轮廓信息预测姿态更新。作者的方法考虑了鲁棒目标函数的 critical points and the loss surface,并且不涉及基于递归网络方法中使用的固定的预先确定的迭代计数。

3. Approach

HybridPose 输入一张图像,也只物体类别,相机内参数;输出 6D 相机 pose ( R I ∈ S O ( 3 ) , t I ∈ R 3 R_I \in SO(3), t_I \in \mathbb{R}^3 RISO(3),tIR3)。
在这里插入图片描述

3.1 Hybrid Representation

HybridPose 利用三个预测网络 f θ K , f ϕ ε , f γ S f^{\mathcal{K}}_{\theta}, f^{\varepsilon}_{\phi}, f^{\mathcal{S}}_{\gamma} fθK,fϕε,fγS 分别估计 关键点 K = { p k } \mathcal{K}=\{ p_{k} \} K={pk},点之间的边 ε = { v e } \varepsilon = \{v_e \} ε={ve} 和 symmetry correspondences between
image pixels S = { ( q s , 1 , q s , 2 } ) \mathcal{S} = \{(q_{s,1},q_{s,2} \} ) S={(qs,1,qs,2}) K , ε , S \mathcal{K},\mathcal{\varepsilon},\mathcal{S} KεS 表示在2D, θ , ϕ , γ \theta,\phi,\gamma θϕγ 是可训练参数。

  • Keypoints
    输入图像,输出物体 K \mathcal{K} K 关键点2D 坐标。 HybridPose集成了PVNet[34]的现成架构,最先进的基于关键点的姿态估计方法,采用投票方案来预测可见和不可见的关键点。除了预测的关键点中的异常值之外,基于关键点的技术的另一个限制是当相邻键点之间的差值(方向和距离)表征对象姿势的重要信息时,不精确的keypoint预测会产生大的姿势错误。
  • Edges
    第二个中间表示,它由沿预定义图的边向量组成,显式地建模每对关键点之间的位移。HybridPose 使用网络 f ϕ ε ( I ) ∈ R 2 × ∣ ε ∣ f^{\varepsilon}_{\phi}(I) \in \mathbb{R}^{2\times |\varepsilon|} fϕε(I)R2×ε 预测边向量, ∣ ε ∣ |\varepsilon| ε 表示边的个数,在实验中作者设置为全连接图的边的个数 ∣ ε ∣ = ∣ K ∣ ( ˙ ∣ K − 1 ∣ ) 2 |\varepsilon|=\frac{|\mathcal{K}|\dot (|\mathcal{K}-1|)}{2} ε=2K(˙K1)
  • Symmetry correspondences
    第三种中间表示 pixel-wise symmetry correspondences。HybridPose扩展了FlowNet 2.0[15]的网络架构,结合了密集的像素流和PVNet预测的语义掩码。由此产生的对称对应是由mask区域内的预测像素流给出的。与前两种表示相比,symmetry correspondences 的数量显著增加,这为遮挡对象提供了丰富的约束条件。 然而,symmetry correspondences 只限制了物体位姿旋转分量的两个自由度。有必要将symmetry correspondences 与其他中间表示结合起来。训练中作者选择原始3D 模型中对称面最多的 作为 symmetry correspondences 。
  • Summary of network design
    实验中 f θ K ( I ) , f ϕ ε ( I ) , f γ S ( I ) f^{\mathcal{K}}_{\theta}(I), f^{\varepsilon}_{\phi}(I), f^{\mathcal{S}}_{\gamma}(I) fθK(I),fϕε(I),fγS(I) 是基于 ResNet实现的。除了最后一个卷积层外,所有的可训练参数都是共享的。所以 f ϕ ε ( I ) 和 f γ S ( I ) f^{\varepsilon}_{\phi}(I) 和 f^{\mathcal{S}}_{\gamma}(I) fϕε(I)fγS(I) 的引入是 insignificant。

3.2 Pose Regression

类似于最先进的姿态回归方法[35],HybridPose组合了一个initialization sub-module和一个refinement sub-module。两个子模块都利用了所有预测的元素。refinement sub-module 还利用一个健壮函数对预测元素中的异常值进行建模。
作者将正则坐标系中的三维关键点坐标表示为 p ‾ k , 1 ≤ k ≤ ∣ K ∣ \overline {p}_k ,1\leq k \leq |\mathcal{K}| pk,1kK,将第一个模块的输出,即预测的关键点、边向量和对称对应分别表示为 p k ∈ R 2 , 1 ≤ k ≤ ∣ K ∣ p_k \in \mathbb{R}^2 ,1\leq k \leq |\mathcal{K}| pkR2,1kK v e ∈ R 2 , , 1 ≤ e ≤ ∣ ε ∣ v_e \in \mathbb{R}^2,,1\leq e \leq |\mathcal{\varepsilon}| veR2,,1eε ( q s , 1 ∈ R 2 , q s , 2 ∈ R 2 ) , 1 ≤ s ≤ ∣ S ∣ (q_{s,1} \in \mathbb{R}^2 ,q_{s,2} \in \mathbb{R}^2),1\leq s \leq |\mathcal{S}| (qs,1R2,qs,2R2),1sS
公式也使用齐次坐标(齐次坐标由摄像机内禀矩阵归一化): p ^ k ∈ R 3 , v ^ e ∈ R 3 , q ^ s , 1 ∈ R 3 , q ^ s , 2 ∈ R 3 \hat p_k \in \mathbb{R}^3, \hat v_e \in \mathbb{R}^3, \hat q_{s,1} \in \mathbb{R}^3 ,\hat q_{s,2} \in \mathbb{R}^3 p^kR3,v^eR3,q^s,1R3,q^s,2R3

  • Initialization sub-module
    这个子模块利用了 ( R I , t I ) (R_I,t_I) (RI,tI)和预测的元素, ( R i , t I ) (R_i,t_I) (Ri,tI) 在仿射空间中,以交替优化的方式投影到 S E ( 3 ) SE(3) SE(3)。为此,为每种类型的预测元素引入以下差异向量:
    在这里插入图片描述
    其中 e s e_s es e t e_t et 是边 e e e 的端点; v ‾ e = p ‾ e t − p ‾ e s ∈ R 3 \overline v_e=\overline p_{e_t}-\overline p_{e_s} \in \mathbb{R}^3 ve=petpesR3 n ‾ r ∈ R 3 \overline n_r \in \mathbb{R}^3 nrR3 是正则系中反射对称平面的法线。

    HybridPose修改了EPnP[18]的框架来生成初始姿态。通过组合这三个来自预测元素的约束,生成一个形式为 A x = 0 Ax = 0 Ax=0 的线性方程组,其中 A A A是矩阵,其维数为 ( 3 ∣ K ∣ + 3 ∣ ε ∣ + ∣ S ∣ ) × 12 (3|\mathcal{K}|+3|\varepsilon|+|\mathcal{S}|) \times 12 (3K+3ε+S)×12 x = [ r 1 T , r 2 T , r 3 T , t T ] 12 × 1 T x=[r^T_1,r^T_2,r^T_3,t^T]^T_{12\times 1} x=[r1T,r2T,r3T,tT]12×1T 是在放射空间中包含旋转和平移参数的向量。为了建模关键点、边向量和对称对应之间的相对重要性,作者分别用超参数 α E \alpha _E αE α S \alpha _S αS 对(2)和(3)进行缩放,生成 A A A。根据EPnP[18],计算 x x x 为:
    在这里插入图片描述
    其中 v i v_i vi A A A 的第 i i i 小的右奇异向量。理想情况下,当预测元素是无噪声时, N = 1 N = 1 N=1 x = v 1 x = v_1 x=v1是最优解。然而,这种策略在嘈杂的预测下表现不佳。与EPnP[18]相同,作者 选择 N = 4 N = 4 N=4 。为了计算最优的 x x x,以如下目标函数的交替优化过程对潜变量 γ i \gamma _i γi 和旋转矩阵 R R R 进行优化:
    在这里插入图片描述
    其中 R i ∈ R 3 × 3 R_i \in \mathbb{R}^{3\times 3} RiR3×3 是由 v i v_i vi reshaped 得到的9个元素。在得到最优的 γ i \gamma _i γi 后,投影得到的仿射变换 ∑ i = 1 4 γ i R i \sum^{4}_{i=1} \gamma _i R_i i=14γiRi转变为刚性转变。

  • Refinement sub-module
    虽然 公式(5) 结合了综合了中间表示,并且可以得到较好的初始化,但它不能直接对预测元素中的异常值进行建模。 另一个限制来自于(1)和(2),它们不能最小化投影误差(即关于关键点和边),众所周知,在基于关键点的姿态估计中,投影误差是有效的。Refinement sub-module 执行局部优化来细化目标位姿,作者引入两个包含投影误差的差分向量 ∀ k , e , s \forall k,e,s k,e,s
    在这里插入图片描述
    其中 P R , t : R 3 → R 2 \mathcal{P}_{R,t}:\mathbb{R}^3 \to \mathbb{R}^2 PR,t:R3R2为由当前位姿 ( R , t ) (R,t) (R,t)的投影。
    为了剔除预测元素中的异常值,考虑一个广义的German-Mcclure(或GM)鲁棒函数
    在这里插入图片描述
    通过这种设置,HybridPose解决了以下非线性优化问题的姿态优化:
    在这里插入图片描述
    其中 β K , β ε , β S \beta_{\mathcal{K}}, \beta_{\mathcal{\varepsilon}}, \beta_{\mathcal{S}} βK,βε,βS 分别是 关键点,边和 symmetry correspondences 的超参数; ∑ k , ∑ e \sum _k, \sum _e k,e表示附加在关键点和边缘预测上的协方差信息。 ∣ ∣ x ∣ ∣ A = ( x T A x ) 1 2 ||x||_A=(x^T Ax)^{\frac{1}{2}} xA=(xTAx)21; 当预测的协方差不可用时,简单地设置 ∑ k = ∑ e = I 2 \sum_k = \sum _e = I_2 k=e=I2,上述优化问题从 R i n i t 和 t i n i t R_{init} 和 t_{init} Rinittinit 出发,采用高斯-牛顿法求解。

3.3 HybridPose Training

  • Initialization sub-module
    在这里插入图片描述
    由于超参数数量较少,位姿初始化步骤不允许显式表达式,因此采用有限差分法计算数值梯度,即将梯度拟合到当前解周围的超参数样本上。然后应用回溯线搜索进行优化。

  • Refinement sub-module
    在这里插入图片描述

4. Experimental Evaluation

4.1 Experimental Setup

  • Evaluation protocols
    ADD(-S):首先计算预测位姿变换后的两个点集与ground truth位姿变换后的两个点集之间的距离,然后提取平均距离。当目标具有symmetric pose ambiguity 时,从两个变换集之间的最近点计算平均距离。ADD(-S)精度定义为计算的平均距离小于模型直径10%的样本所占百分比。

    angular rotation error: ∣ ∣ l o g ( R g t T R I ) 2 ∣ ∣ ||\frac{log(R^{T}_{gt}R_{I})}{2}|| 2log(RgtTRI), relative translation error: ∣ ∣ t I − t g t ∣ ∣ d \frac{||t_{I}-t_{gt}||}{d} dtItgt。其中预测的pose ( R I , t I ) (R_{I},t_{I}) (RI,tI),ground truth pose: ( R g t , t g t ) (R_{gt},t_{gt}) (Rgt,tgt) d d d是物体的直径。

4.2 Analysis of Results

如表1、表2和图3所示,HybridPose可以实现精确的位姿估计。关于Linemod和Occlusion Linemod, HybridPose的平均ADD(-S)精度分别为91.3和47.5。Linemod的结果优于所有的方法,除了一种最先进的方法,它从中间表示回归。Occlusion Linemod的结果优于所有最先进的方法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述·

4.3. Ablation Study

表3总结了混合姿态在LinMod数据集上使用不同的预测中间表示的结果:
在这里插入图片描述
由表3可以看出:

  1. 在keypoints上添加symmetry correspondences会在rotation上带来一些性能提升,translation 误差几乎保持不变,一种解释是symmetry correspondences只约束了三个rotation参数中的两个自由度,对translation 参数没有约束;
  2. 在keypoints 和 symmetry correspondences 中添加 edge vectors 可以在rotation和translation估计中获得显著的性能增益。
    一种解释是,edge vectors 在rotation和translation 方面提供了更多的约束。edge vectors表示相邻keypoints 的位移,并为回归提供梯度信息,因此在translation 方面比keypoints 提供更多的约束。与symmetry correspondences不同的是,edge vectors对 rotation 参数约束了3个自由度,从而进一步提高了rotation估计的性能。

5. Conclusions and Future Work

这篇文章,作者提出HybridPose,利用keypoint,edge vetors,symmetry correspondences。实验表明了该方法速度上达到了30fps,在数据集LinMod上的accuracy达到了soat。在接下来作者计划扩展 HybridPose包括更多的中间表示,例如:shape primitives, normals, and planar faces。其它可能的方向是以类似于 Path-invariant map networks 的方式在不同表示之间加强一致性,作为网络训练中的自我监督损失。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值