Unsupervised Learning of Shape and Pose with Differentiable Point Clouds && NIPS 2018 论文笔记

最新推荐文章于 2022-09-11 17:51:45 发布

phy12321

最新推荐文章于 2022-09-11 17:51:45 发布

阅读量705

点赞数

分类专栏：物体位姿估计

本文链接：https://blog.csdn.net/phy12321/article/details/106035033

版权

物体位姿估计专栏收录该内容

5 篇文章 6 订阅

订阅专栏

第一作者：Eldar Insafutdinov
研究机构：Max Planck Institute for Informatics, Intel Labs

总结

重投影误差：该方法不需要准确的地面真实相机姿势，因此可以应用于从真实数据中学习
使用了位姿估计器集合来解决位姿歧义问题

论文解决的问题

解决了从一组未标记类别的特定图像中学习精确的三维形状和相机姿态的问题。

论文训练了一个卷积网络，通过最小化重投影误差来预测单个图像的形状和姿态：给定一个物体的多个视图，预测的形状到预测相机姿态的投影应该与提供的视图相匹配。

选择点云表示相比于体素更加精确，允许计算效率高的处理，可以生成高质量的形状模型

论文克服了三个问题：

估计形状和姿势是一个鸡和蛋的问题：没有一个好的形状估计就不可能学习准确的姿势，反之亦然，准确的姿态估计是学习形状的必要条件。这个问题通过形状和姿势预测器的联合优化解决
位姿估计容易出现由模糊性引起的局部极小值：一个目标可能从两个角度看起来很相似，如果网络在所有情况下都收敛到只预测其中一个角度，那么它将无法学习预测另一个角度。这个问题会导致姿态估计中的严重误差。为了解决这个问题，作者训练了不同的姿态预测器集合并将其提炼为单个学生模型（student model）
在没有明确的3D监督的情况下学习点云信息。论文提出了一个可微投影算子，该算子在给定点集和相机姿态的情况下，生成一个二维投影（轮廓、彩色图像或深度图），作者将该算子称为“可微点云”

现有方法的不足 & 本文贡献

现有方法需要相机位姿的精确数据作为label，且预测形状由于基于voxel，其分辨率非常低。

本文提出了一种不需要标签数据、利用点云表示的方法来学习仅给出二维投影的三维物体的姿态和形状。

实验表明，点云在效率和准确性方面优于 voxel-based 的表示。

相比于使用真值训练的相机位姿估计网络，性能只有很小的下降。

论文方法介绍

直观上，模型要求对于同一对象的所有成对的视图，预测的点云的投影必须与提供的真值视图相匹配。

流程概述：

输入数据为同一个目标的多个单视图，包含K个目标的数据集:
$\cup _{i=1}^k\{ <X_j^i,p_j^i>\}_{j=1}^{m_i}\\X_j^i 为彩色图，p_j^i为同一视角下的某种投影（如轮廓或深度图等），m_i 为视角数目$
假定有两个输入X1,X2，分别使用它们来对形状（点云形式）和相机位姿进行预测：
$形状：\hat{P_1}=F_P(x_1, θ_P)\\相机位姿： \hat{c_2}=F_c (x_2, θ_c)\\其中F_P，F_c 为共享大多数参数的卷积网络，通过固定长度的全连接层输出预测$
得到两个预测后就可以投影出预测的视图：
$\hat p_{1,2}=\pi(\hat{P_1},\hat{c_2})\\\pi表示可微投影算子，即可微点云$
最后使用预测视图与真值之间的差别构造损失函数：
$L(θ_P,θ_c) =\sum_{i=1}^N\sum^{m_i}_{j_1,j_2=1}||\hat p^i_{j_1,j_2}−p^i_{j_2}||^2$
在这里插入图片描述

姿态预测器估计姿态

实际上，基于上述的实现基本无法预测准确的相机位姿。这是由局部极小值引起的：有些目标从后看和从前看差别不大（位姿的歧义性），而目标姿态估计器的估计视角其有可能收敛到而两种的任何一种。在这里插入图片描述

为了解决这个问题，作者设计了一个包含K个姿态预测器的集合： $F^k_c(·,θ^k_c)$ ,然后使用“后视损失（ hindsight loss）”进行训练。损失函数：
$L_h(θ_P,θ^1_c,...,θ^K_c) = min_{k∈[1,K]}L(θ_P,θ^k_c)\\其中位姿损失 L(q_1,q_2) = 1−Re(q_1q^{−1}_2/||q1q^{−1}_2||)\\q_1,q_2为四元数，Re()表示四元数的实部$
每个预测器都专门学习一个姿态空间的子集，它们一起覆盖了目标的整个姿态空间。

如果网络架构合适，这种分工学习的机制是随机权重初始化的自然结果，无需采取特殊措施即可确保这种专业化。

不同的姿势预测器需要具有多个（根据作者经验，至少3个）非共享层。

在这里插入图片描述

在训练预测器集合（student）的同时，使用集合中的最佳模型（ $L_h$ 最小的那个）作为teacher，将其提取为单个的回归器。在测试时使用该最佳模型作为姿态回归器。

最终网络的输出为点云数据(3×N 或者包含RGB的6×N)，相机位姿(4*1，四元数)，位姿估计器集合的K=4。

可微分点云投影算子π

该投影算子给定一个点云P和一个相机位姿c，会生成一个视图p =π（P，c）

假定有N个点的点云数据为
$P=\{〈x_i,s_i,y_i〉\}^N_{i=1}\\其中：点云坐标 x_i= (x_{i,1},x_{i,2},x_{i,3}）；尺寸参数 s_i 是一个二维向量，包括各向同性高斯的协方差和比例因子；关联信号y_i（例如RGB颜色信息）$
尺寸参数可以手动指定，也可以与点位置一起学习

投影算子流程图如下

在这里插入图片描述

Transformed point cloud:

首先，通过相机位姿c对应的投影变换Tc将点的位置转换到标准坐标系： $x′_i=T_cx_i$ , 还计算了变换后的尺寸参数s’，然后设置相机变换矩阵，以使变换后的投影一律等于沿第三轴的正交投影

Occupancy map:

为了允许梯度计算，使用平滑函数fi（论文中使用缩放的高斯密度函数）表示每个经过放缩后的点云<xi，si>
$f_i(x) =c_i *e^{(−\frac12(x−x′_i)^T\sum ^{−1}_i(x−x′_i))}\\其中〈c_i,Σ_i〉=s_i是尺寸参数（缩放因子，协方差）$
点云的占用函数是经过裁剪后的每个点的fi函数值的总和：
$clip(\sum^N_{i=1}f_i(x),[0,1]) \\$
将得到的函数离散为一个分辨率为1×D2×D3的网格,得到occupancy map

Ray termination probabilities：

在将occupancy map投影到平面上之前，需要确保来自被遮挡点的信号不会干扰前景点

这里使用现有的可微光线追踪公式来执行遮挡推理，将占有率o转换为射线终止概率r:
$\quad r_{k_1,k_2,k_3}=o_{k_1,k_2,k_3}\prod^{k_3−1}_{u=1}(1−o_{k_1,k_2,u}) \ \ \ if \ \ k_3\leq D3,\\ 背景单元格:\quad r_{k_1,k_2,D_3+1}=\prod^{D_3}_{u=1}(1−o_{k_1,k_2,u})\\这里k_i指的是占用图的三个维度$
直观地，如果一个单元的占用值 $o_{k_1,k_2,k_3}$ 很高，而之前的所有占用值 $o_{k_1,k_2,u} ,u <k_3$ 都很低，则该单元具有较高的终止概率 $r_{k_1,k_2,k_3}$ ，附加的背景单元格 $r_{k_1,k_2,D_3+1}$ 用于确保终止概率总和为1

Orthogonal projection:

将体素网格投影到平面:
$p_{k_1,k_2}=\sum^{D_3+1}_{k_3=1}r_{k_1,k_2,k_3}y_{k_1,k_2,k_3}\\y(x) =\frac{\sum^N_{i=1}y_if_i(x)}{\sum^N_{i=1}f_i(x)}\\这里y表示归一化后的投影的信号，例如RGB信息等。\\如果想获得深度图，令y_{k_1,k_2,k_3}=k_3/D_3\\如果想获得轮廓图，令y_{k_1,k_2,k_3}=1−δ_{k_3,D_3+1}$