【2018ECCV】DeepIM：深度迭代匹配进行物体6D姿态估计

最新推荐文章于 2024-07-04 16:48:39 发布

Guoguang Du

最新推荐文章于 2024-07-04 16:48:39 发布

阅读量2.5k

点赞数 2

分类专栏：位姿估计文章标签： DeepIM 图像ICP

本文链接：https://blog.csdn.net/dsoftware/article/details/97693975

版权

DeepIM是一种深度神经网络，用于通过迭代匹配提高物体6D位姿估计的精度。该方法从图像出发，利用初始位姿，通过网络预测相对SE(3)变换，逐步优化位姿。在LINEMOD和Occlusion数据集上，DeepIM展示了优于其他RGB-only方法的性能，且能处理未见过的物体。

摘要由CSDN通过智能技术生成

本文同步于微信公众号：3D视觉前沿，欢迎大家关注。

在这里插入图片描述

摘要

在机器人操作和虚拟现实应用中，从图像中估计物体的6D位姿是一个非常重要的问题。鉴于直接从图像中回归得到的物体姿态精度不高，如果将输入图像和物体渲染得到的图像进行匹配，则能够得到精确的结果。在本文中，作者提出了一种叫做DeepIM的深度神经网络：给定一个初始位姿，网络能将观测图像和渲染得到的图像匹配，迭代地优化位姿。网络训练后能够预测一个相对的姿态变换，使用了一种解耦表示的3D坐标和3D朝向，并且使用了一种迭代的训练过程。本文在用于6D位姿估计的两个基准数据集上证明了DeepIM实现了较当前算法精度的极大提升，而且DeepIM有效处理之前未见到的物体。

1 问题提出

物体6D位姿估计的方法依据物体的纹理情况可以分为两大类：针对丰富纹理的物体以及针对弱纹理或无纹理物体。前者通过局部特征匹配来寻找到2D图像和3D物体点之间的对应，使用PnP方法解决；后者可分为两种方法：一种估计输入图像中的像素点或者物体的关键点对应的3D模型坐标系；另一种离散化位姿空间，将问题转变成姿态回归问题。这两种方法能够处理无纹理物体，但由于在分类或者回归阶段存在小误差，导致位姿不匹配，不能得到精确位姿。常见的后优化方法使用手动设置的图像特征匹配，或者使用代价函数，精度都不高。因此本文提出了一种基于深度神经网络的位姿优化技术，迭代地进行6D位姿的估计，提高位姿精度。

本篇论文的核心贡献如下：

提出了一种深度网络迭代地进行图像中物体位姿的优化，不需要任何手工设计的图像特征，能够自动地学习一种内部优化机制；
提出了一种对于位姿SE(3)的分别表示变换，描述物体位姿见的变换。这种变换允许对于位姿物体姿态的优化；
在LINEMOD和Occlusion数据集上评估了算法的精度以及其他特性，显示提出算法达到了基于RGB图像估计位姿方法的最优，而且在未知物体上得到的精度也很高。

2 算法综述

给定图像中一个物体的初始6D位姿，DeepIM能够将物体渲染得到的图像和当前观测的图像匹配，预测一个相对的SE(3)变换；之后迭代地根据估计的更为精确的位姿重新渲染物体得到渲染图像，并和观测图像相匹配，从而会变得越来越相似，使网络得到越来越精确的位姿。整体框架如下图所示：
在这里插入图片描述
图1 算法框架

网络的输入：观测的RGB图像以及图像中物体位姿的初始估计值；网络输出：相对的SE(3)变换，可以直接作用于初始位姿以提高估计位姿的精度；

以下通过五部分介绍: a.观测图像和渲染图像的放大策略; b.进行位姿匹配的网络结果; c.一种SE(3)变换的分开表示; d.以及一种用于位姿回归的新的损失函数; e.介绍网络的训练过程并且测试网络。

2.1 高精度图像放大

为了在进行位姿匹配时获取足够多的细节，在将观测图像和渲染得到的图像送入网络前，我们将他们放大；特别地，再第 $i$ 次迭代匹配过程中，给定上一步得到的6D的位姿估计 $p_{(i-1)}$ ，我们将3D物体模型，根据 $p_{(i-1)}$ 渲染得到一个合成的图像；之后，我们额外地为观测图像和渲染图像生成一个前景的蒙板。这四张图像再使用一个将蒙板扩大后的包围盒裁剪。最后，我们放大并且进行双线性上采样得到和原始输入图像一样的尺寸（480*640）。重要地，物体的比例不发生变化。

最低0.47元/天解锁文章

Guoguang Du

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
【2018ECCV】DeepIM：深度迭代匹配进行物体6D姿态估计

摘要在机器人操作和虚拟现实应用中，从图像中估计物体的6D位姿是一个非常重要的问题。鉴于直接从图像中回归得到的物体姿态精度不高，将输入图像和物体渲染得到的图像进行匹配，能够得到精确的结果。在本文中，作者提出了一种叫做DeepIM的深度神经网络：给定一个初始位姿，网络能将观测图像和渲染得到的图像匹配，迭代地优化位姿。网络训练后能够预测一个相对的姿态变换，使用了一种分开表示的3D坐标和3D朝向，并且...
复制链接

扫一扫

专栏目录