Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images

本文提出了一种新的6D位姿估计方法,利用卷积神经网络(CNN)在RGB-D图像中学习比较渲染和观察图像,以处理遮挡和传感器噪声。该方法在两个数据集上显示出显著的性能提升,且能泛化到不同形状和外观的对象。
摘要由CSDN通过智能技术生成


2015 ICCV

如有错误,欢迎指正

本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
原文链接: https://arxiv.org/pdf/1508.04546.pdf.
参考链接: https://blog.csdn.net/qq_40245826/article/details/100831468.

摘要

综合分析法是计算机视觉中许多任务的成功方法,如RGB-D图像中物体的6D位姿估计就是本文的主题。其目的是将观察结果与前向处理的输出进行比较,例如特定姿势下感兴趣对象的渲染图像。由于遮挡或复杂的传感器噪声,很难以有意义的方式进行这种比较。我们提出一种“学会比较”的方法,同时考虑到这些困难。这是通过一个卷积神经网络(CNN)来描述一个特定物体姿态的后验密度来完成的,该网络将观察到的图像和渲染的图像进行比较。用极大似然范式对网络进行训练。我们可以用不同的几何图形来观察不同的物体,也不能用它来观察不同的物体。与现有技术相比,我们在两个不同的数据集上显示了显著的改进,包括总共11个对象、杂乱的背景和严重的遮挡。

1 介绍

在这里插入图片描述

大量的研究工作集中在图像和视频中的目标实例检测和姿态估计方面。在本文中,我们考虑在单个RGB-D图像中的姿势估计,如图1所示。在给定额外深度通道的情况下,提取场景中物体实例的完整6D姿态(3D旋转和3D平移)变得可行。姿态估计在许多领域都有重要的应用,例如机器人学[21,32]、医学成像[24]和增强现实[12]。最近,Brachmann等人。[5]在RGB-D图像中采用自适应综合分析法进行位姿估计,取得了最新的结果。他们使用随机森林[6]来获得像素密集的预测。在文献[5]的基础上,我们提出了一种在综合分析框架下学习比较的新方法。我们在概率背景下使用卷积神经网络(CNN)来实现这一点。

综合分析法是计算机视觉中许多任务的成功方法,如目标识别[13]、场景解析[15]、姿态估计和跟踪[9]。正演合成模型从对世界可能的几何解释中生成图像,然后选择最符合测量的视觉证据的解释。特别是对于姿势估计,其思想是将观察结果与前向处理的输出进行比较,例如在特定姿势下感兴趣对象的渲染图像。当尝试在RGB-D图像中进行位姿估计时,由于遮挡或复杂的传感器噪声,比较分析是非常重要的。例如,有些区域在Kinect中没有深度测量或红外反射较差。

1.1 贡献

•我们在重遮挡的RGB-D图像中,相对于最先进的姿势估计方法,我们取得了相当大的改进。
•据我们所知,这项工作是第一次利用卷积神经网络(CNN)作为概率模型来学习比较渲染图像和观察图像。
•我们注意到CNN并不专门研究特定对象的几何或外观,它可以用于形状和外观迥异、背景不同的对象。
论文组织如下。第2节概述了相关工作。我们提出的方法在第3节。第4节我们对我们的方法进行了评估,并与两个数据集的最新技术进行了比较。我们在第5节总结了论文。

2 相关工作

计算机视觉领域的大量工作集中在目标检测和姿态估计问题上,包括实例和类别识别、刚性和铰接对象以及粗略(量化)和精确(6D)姿势。姿态估计一直是一个活跃的话题,从基于模板的方法[14,8],基于稀疏特征的方法[21],以及密集方法[25,5]。在下面的简要回顾中,我们将重点介绍CNNs和综合分析技术。

CNNs,近年来正在推动计算机视觉的发展,如图像分类[16]、检测[31]、识别[2,23]、语义分割[20]、姿势估计[27]。CNN在大规模视觉识别挑战赛(ILSVRC2012)中表现出了出色的表现。与以往的特征提取方法相比,CNNs在图像特征提取方面取得了很大的成功。在文献[11]中,我们利用CNNs学习了丰富的图像和深度特征表示来检测RGB-D图像中的目标。在文献[1]中,CNNs用于生成给定一组3D椅子模型、椅子类型、视点和颜色的RGB图像。Gupta等人最近的研究使用[11]输出的对象实例分割来推断RGB-D图像中的三维对象姿势。另一个CNN用于预测物体的粗略姿态。这个CNN是使用包含渲染合成对象的图像中的像素法线训练的。这种粗略的姿势用于将少量原型模型与数据对齐,并将最适合的模型放置到场景中。与上述方法不同,我们使用CNN作为概率模型来比较渲染图像和观察图像。我们的CNN的输出是能量值,而在[10]中CNN的输出是物体的姿态。在[7]中,我们学习了相似性度量。学习过程使判别损失函数最小化。采用siamese网络结构的CNN映射两个人脸特征空间。类似地,在[29]中,Wohlhart和Lepetit训练了一个CNN来将图像块映射到一个描述符空间,在这个空间中,姿势估计和目标识别通过最近邻方法来解决。我们的框架是概率的。姿态的后向分布采用Gibbs分布模型,CNN为能量函数。Zbontar和LeCun[30]训练CNN预测两个图像块的匹配程度,并使用它计算立体匹配成本。通过基于交叉的代价聚合和半全局匹配,然后进行左右一致性检查以消除遮挡区域中的错误,从而使代价最小化。在[30]中,CNN用于比较两个图像块,而我们的CNN用于比较渲染图像和观察图像。

综合分析法是计算机视觉中许多任务的成功方法,如目标识别[13]、场景解析[15]、视点合成[13]、材料分类[28]和凝视估计[26]。所有这些方法都使用前向模型来合成某种形式的图像,并将其与观测值进行比较。许多著作学习特征表示,并在特征空间进行比较。例如,在三维合成中使用了重建目标的策略。正向模型综合了定义在不变特征上的视觉模板。Gall等人提出了一种基于综合分析的运动捕捉与跟踪框架。它结合了基于补丁和基于区域的匹配来跟踪身体部位。基于补丁的匹配提取两个连续帧之间的对应关系以进行预测,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值