1 Abstract and Introduction
对场景的全面语义理解对于许多应用程序都很重要,但不同的语义信息(例如,对象、场景类别、材料类型、3D形状等)应该在什么空间建立基础?它的结构应该是什么?为了有一个统一的结构来承载不同类型的语义,我们遵循3D中的场景范式,生成3D场景图。给定一个3D网格和注册的全景图像,我们构建一个跨越整个建筑物的图,包括对象(例如,类别,材料,形状和其他属性),房间(例如,功能,照明类型等)和相机(例如,位置等)的语义,以及这些实体之间的关系。
然而,如果手工完成,这个过程将耗费大量人力。为了缓解这种情况,我们设计了一个半自动框架,该框架采用现有的检测方法,并使用两个主要约束对它们进行了增强:1 .对全景图上采样的查询图像进行成帧,以最大化地提高2D检测器的性能;2. 在源自不同相机位置的2D检测之间的多视图一致性实施。
语义信息应该建立在哪里?它应该具有什么样的结构才能最有用和不变?这是一个涉及计算机视觉和机器人等多个领域的内容的基本问题。有很多组件在发挥作用:对象和空间的几何体、其中实体的类别以及观察场景的视点(即相机姿势)。
在可以将这些信息作为基础的空间中,最常用的选择是图像。然而,出于这一目的的使用图像并不理想,因为它存在各种弱点,例如像素对任何参数变化都有很大的变化、对象的整个几何体都不存在等等。用于此目的的理想空间至少是(a)对尽可能多的变化保持不变,以及(b)容易并且确定地连接到不同域和任务所需的各种输出端口,例如图像或视频。为此,我们阐明了3D空间更稳定和不变,还可以连接到图像和其他像素和非像素输出域(如深度)。因此