《3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera》

初篱

已于 2023-07-09 14:06:12 修改

阅读量111

点赞数

分类专栏：视觉语言导航VLN 文章标签： 3d

于 2023-04-23 21:15:41 首次发布

本文链接：https://blog.csdn.net/qq_44100524/article/details/130275411

版权

视觉语言导航VLN 专栏收录该内容

22 篇文章 35 订阅 ¥19.90 ¥99.00

订阅专栏

1 Abstract and Introduction

对场景的全面语义理解对于许多应用程序都很重要，但不同的语义信息(例如，对象、场景类别、材料类型、3D形状等)应该在什么空间建立基础？它的结构应该是什么?为了有一个统一的结构来承载不同类型的语义，我们遵循3D中的场景范式，生成3D场景图。给定一个3D网格和注册的全景图像，我们构建一个跨越整个建筑物的图，包括对象(例如，类别，材料，形状和其他属性)，房间(例如，功能，照明类型等)和相机(例如，位置等)的语义，以及这些实体之间的关系。

然而，如果手工完成，这个过程将耗费大量人力。为了缓解这种情况，我们设计了一个半自动框架，该框架采用现有的检测方法，并使用两个主要约束对它们进行了增强:1 .对全景图上采样的查询图像进行成帧，以最大化地提高2D检测器的性能；2. 在源自不同相机位置的2D检测之间的多视图一致性实施。

语义信息应该建立在哪里？它应该具有什么样的结构才能最有用和不变？这是一个涉及计算机视觉和机器人等多个领域的内容的基本问题。有很多组件在发挥作用：对象和空间的几何体、其中实体的类别以及观察场景的视点（即相机姿势）。

在可以将这些信息作为基础的空间中，最常用的选择是图像。然而，出于这一目的的使用图像并不理想，因为它存在各种弱点，例如像素对任何参数变化都有很大的变化、对象的整个几何体都不存在等等。用于此目的的理想空间至少是(a)对尽可能多的变化保持不变，以及(b)容易并且确定地连接到不同域和任务所需的各种输出端口，例如图像或视频。为此，我们阐明了3D空间更稳定和不变，还可以连接到图像和其他像素和非像素输出域（如深度）。因此࿰

了解本专栏

初篱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
《3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera》

属性：图形中的每个建筑、房间、对象和相机节点（从现在起称为元素）都有一组属性。一些示例包括对象类、三维形状、材质类型、姿势信息等。关系：元素之间的连接是通过边来建立的，可以跨越不同的层（如对象到对象、相机到对象再到房间等）。属性和关系的完整列表如表1所示。（3D场景图由4层组成，分别表示语义、3D空间和相机。元素是图中的节点，具有某些属性。它们之间的关系用边来表示（如遮挡、相对体积等））
复制链接

扫一扫