作者:Tom Hardy
Date:2020-3-13
来源:基于2.5/3D的自主主体室内场景理解研究
参考链接:https://arxiv.org/abs/1803.03352
主要内容
摘要随着低成本、紧凑型2.5/3D视觉传感设备的出现,计算机视觉界对室内环境的视景理解越来越感兴趣。本文为本课题的研究提供了一个全面的背景,从历史的角度开始,接着是流行的三维数据表示和对可用数据集的比较分析。在深入研究特定于应用程序的细节之前,简要介绍了在文献中广泛使用的底层方法的核心技术。之后根据基于场景理解任务的分类,回顾了所开发的技术:包括全局室内场景理解以及子任务,例如场景分类、对象检测、姿势估计、语义分割、三维重建、显著性检测、基于物理的推理和提供性预测。随后,总结了用于评估不同任务的性能指标,并对最新技术进行了定量比较。最后对当前面临的挑战进行了总结,并对需要进一步研究的开放性研究问题进行了展望。
介绍
根据输入媒体的不同,视觉场景理解大致可以分为两类:静态理解(对于图像)和动态理解(对于视频)。本文特别关注室内场景2.5/3D视觉数据的静态场景理解。我们专注于3D媒体,因为3D场景理解能力是通用人工智能agent开发的核心,这些智能agent可以部署到各种新兴应用领域,如自主车辆、家用机器人、医疗保健系统、教育、环境保护和信息娱乐。
数据表示
下面将会重点介绍用于表示和分析场景的流行的2.5D和3D数据表示,现有常用的data representation主要有:
- 点云
- Voxel Representation(体素)
- 3D Mesh
- Depth Channel and Encodings
- 八叉树
- Stixels
- Truncated Signed Distance Function
- 构造立体几何
核心技术
1、Convolutional Neural Networks
CNN具有强大的特征拟合能力,非常适合结构化数据的特征提取和表示。
2、Recurrent Neural Networks
RNN的隐藏状态提供了一