Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images
2015 ICCV
如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
原文链接: https://arxiv.org/pdf/1508.04546.pdf.
参考链接: https://blog.csdn.net/qq_40245826/article/details/100831468.
摘要
综合分析法是计算机视觉中许多任务的成功方法,如RGB-D图像中物体的6D位姿估计就是本文的主题。其目的是将观察结果与前向处理的输出进行比较,例如特定姿势下感兴趣对象的渲染图像。由于遮挡或复杂的传感器噪声,很难以有意义的方式进行这种比较。我们提出一种“学会比较”的方法,同时考虑到这些困难。这是通过一个卷积神经网络(CNN)来描述一个特定物体姿态的后验密度来完成的,该网络将观察到的图像和渲染的图像进行比较。用极大似然范式对网络进行训练。我们可以用不同的几何图形来观察不同的物体,也不能用它来观察不同的物体。与现有技术相比,我们在两个不同的数据集上显示了显著的改进,包括总共11个对象、杂乱的背景和严重的遮挡。
1 介绍
大量的研究工作集中在图像和视频中的目标实例检测和姿态估计方面。在本文中,我们考虑在单个RGB-D图像中的姿势估计,如图1所示。在给定额外深度通道的情况下,提取场景中物体实例的完整6D姿态(3D旋转和3D平移)变得可行。姿态估计在许多领域都有重要的应用,例如机器人学[21,32]、医学成像[24]和增强现实[12]。最近,Brachmann等人。[5]在RGB-D图像中采用自适应综合分析法进行位姿估计,取得了最新的结果。他们使用随机森林[6]来获得像素密集的预测。在文献[5]的基础上,我们提出了一种在综合分析框架下学习比较的新方法。我们在概率背景下使用卷积神经网络(CNN)来实现这一点。
综合分析法是计算机视觉中许多任务的成功方法,如目标识别[13]、场景解析[15]、姿态估计和跟踪[9]。正演合成模型从对世界可能的几何解释中生成图像,然后选择最符合测量的视觉证据的解释。特别是对于姿势估计,其思想是将观察结果与前向处理的输出进行比较,例如在特定姿势下感兴趣对象的渲染图像。当尝试在RGB-D图像中进行位姿估计时,由于遮挡或复杂的传感器噪声,比较分析是非常重要的。例如,有些区域在Kinect中没有深度测量或红外反射较差。
1.1 贡献
•我们在重遮挡的RGB-D图像中,相对于最先进的姿势估计方法,我们取得了相当大的改进。
•据我们所知,这项工作是第一次利用卷积神经网络(CNN)作为概率模型来学习比较渲染图像和观察图像。
•我们注意到CNN并不专门研究特定对象的几何或外观,它可以用于形状和外观迥异、背景不同的对象。
论文组织如下。第2节概述了相关工作。我们提出的方法在第3节。第4节我们对我们的方法进行了评估,并与两个数据集的最新技术进行了比较。我们在第5节总结了论文