本文同步于微信公众号:3D视觉前沿,欢迎大家关注。
摘要
在机器人操作和虚拟现实应用中,从图像中估计物体的6D位姿是一个非常重要的问题。鉴于直接从图像中回归得到的物体姿态精度不高,如果将输入图像和物体渲染得到的图像进行匹配,则能够得到精确的结果。在本文中,作者提出了一种叫做DeepIM的深度神经网络:给定一个初始位姿,网络能将观测图像和渲染得到的图像匹配,迭代地优化位姿。网络训练后能够预测一个相对的姿态变换,使用了一种解耦表示的3D坐标和3D朝向,并且使用了一种迭代的训练过程。本文在用于6D位姿估计的两个基准数据集上证明了DeepIM实现了较当前算法精度的极大提升,而且DeepIM有效处理之前未见到的物体。
1 问题提出
物体6D位姿估计的方法依据物体的纹理情况可以分为两大类:针对丰富纹理的物体以及针对弱纹理或无纹理物体。前者通过局部特征匹配来寻找到2D图像和3D物体点之间的对应,使用PnP方法解决;后者可分为两种方法:一种估计输入图像中的像素点或者物体的关键点对应的3D模型坐标系;另一种离散化位姿空间,将问题转变成姿态回归问题。这两种方法能够处理无纹理物体,但由于在分类或者回归阶段存在小误差,导致位姿不匹配,不能得到精确位姿。常见的后优化方法使用手动设置的图像特征匹配,或者使用代价函数,精度都不高。因此本文提出了一种基于深度神经网络的位姿优化技术,迭代地进行6D位姿的估计,提高位姿精度。
本篇论文的核心贡献如下:
- 提出了一种深度网络迭代地进行图像中物体位姿的优化,不需要任何手工设计的图像特征,能够自动地学习一种内部优化机制;
- 提出了一种对于位姿SE(3)的分别表示变换,描述物体位姿见的变换。这种变换允许对于位姿物体姿态的优化;
- 在LINEMOD和Occlusion数据集上评估了算法的精度以及其他特性,显示提出算法达到了基于RGB图像估计位姿方法的最优,而且在未知物体上得到的精度也很高。
2 算法综述
给定图像中一个物体的初始6D位姿,DeepIM能够将物体渲染得到的图像和当前观测的图像匹配,预测一个相对的SE(3)变换;之后迭代地根据估计的更为精确的位姿重新渲染物体得到渲染图像,并和观测图像相匹配,从而会变得越来越相似,使网络得到越来越精确的位姿。整体框架如下图所示:
图1 算法框架
网络的输入:观测的RGB图像以及图像中物体位姿的初始估计值;网络输出:相对的SE(3)变换,可以直接作用于初始位姿以提高估计位姿的精度;
以下通过五部分介绍: a.观测图像和渲染图像的放大策略; b.进行位姿匹配的网络结果; c.一种SE(3)变换的分开表示; d.以及一种用于位姿回归的新的损失函数; e.介绍网络的训练过程并且测试网络。
2.1 高精度图像放大
为了在进行位姿匹配时获取足够多的细节,在将观测图像和渲染得到的图像送入网络前,我们将他们放大;特别地,再第 i i i次迭代匹配过程中,给定上一步得到的6D的位姿估计 p ( i − 1 ) p_{(i-1)} p(i−1),我们将3D物体模型,根据 p ( i − 1 ) p_{(i-1)} p(i−1)渲染得到一个合成的图像;之后,我们额外地为观测图像和渲染图像生成一个前景的蒙板。 这四张图像再使用一个将蒙板扩大后的包围盒裁剪。最后,我们放大并且进行双线性上采样得到和原始输入图像一样的尺寸(480*640)。重要地,物体的比例不发生变化。