3D-RelNet: Joint Object and Relational Network for 3D Prediction
预测场景中所有对象的三维姿势和形状
摘要
我们提出了一种方法来预测场景中存在的物体的3D形状和姿势。 追求这一目标的现有基于学习的方法对每个对象进行独立预测,并且不利用它们之间的关系。 我们认为推理这些关系是至关重要的,并提出了将这些关系纳入3D预测框架的方法。 除了独立的每对象预测之外,我们还以相对3D姿态的形式预测成对关系,并证明这些可以很容易地结合起来以改善对象水平估计。 我们报告了不同数据集(SUNCG,NYUv2)的性能,并表明我们的方法显着改进了独立预测方法,同时也优于其他隐式推理方法。
贡献
我们的主要洞察力是将结构信息纳入端到端系统。 具体而言,我们在平移,旋转和缩放空间中建模和预测成对关系。 使用这种结构化关系空间的一个优点是将关系结合到对象级估计中是简单而有效的。 但是我们如何从像素中预测这些成对关系呢? 我们的论文研究了几种设计选择并提出了一种简单的架构。 我们的方法显示了跨多个指标和数据集的性能的显着改进。 正如我们在实验中所展示的那样,这种结构化空间中的关系建模在当前最先进的3D方法的检测设置中提供了巨大的6点AP改进。
问题
在本文中,我们尝试对3D预测问题进行整体观察,并注意到解决3D预测问题需要结合所有三个线索。 我们认为设计这种整体架构需要回答三个基本问题:(a)对象级3D预测的正确表示是什么; (b)我们如何表示物体 - 物体的关系,我们如何从像素中预测它们? (c)最后,如何将对象 - 对象关系与对象级模块相结合。 本文以(a)最近的成功为基础,研究如何建模关系并将其纳入我们的3D预测框架。
方法
我们的目标是预测场景中所有对象的三维姿势和形状。我们观察到,除了每个物体的视觉线索外,对它们之间关系的推理可以进一步帮助我们的预测,特别是对3D姿势的预测——椅子将在桌子前面,并且具有兼容的相对大小,因此即使我们不确定其中一个对象,例如,由于遮挡,这些关系可以使我们做出准确的预测。
实验