基于2.5/3D的自主主体室内场景理解研究

作者:Tom Hardy
Date:2020-3-13
来源:基于2.5/3D的自主主体室内场景理解研究

参考链接:https://arxiv.org/abs/1803.03352

主要内容

摘要随着低成本、紧凑型2.5/3D视觉传感设备的出现,计算机视觉界对室内环境的视景理解越来越感兴趣。本文为本课题的研究提供了一个全面的背景,从历史的角度开始,接着是流行的三维数据表示和对可用数据集的比较分析。在深入研究特定于应用程序的细节之前,简要介绍了在文献中广泛使用的底层方法的核心技术。之后根据基于场景理解任务的分类,回顾了所开发的技术:包括全局室内场景理解以及子任务,例如场景分类、对象检测、姿势估计、语义分割、三维重建、显著性检测、基于物理的推理和提供性预测。随后,总结了用于评估不同任务的性能指标,并对最新技术进行了定量比较。最后对当前面临的挑战进行了总结,并对需要进一步研究的开放性研究问题进行了展望。

介绍

根据输入媒体的不同,视觉场景理解大致可以分为两类:静态理解(对于图像)和动态理解(对于视频)。本文特别关注室内场景2.5/3D视觉数据的静态场景理解。我们专注于3D媒体,因为3D场景理解能力是通用人工智能agent开发的核心,这些智能agent可以部署到各种新兴应用领域,如自主车辆、家用机器人、医疗保健系统、教育、环境保护和信息娱乐。

在这里插入图片描述

数据表示

下面将会重点介绍用于表示和分析场景的流行的2.5D和3D数据表示,现有常用的data representation主要有:

  1. 点云
  2. Voxel Representation(体素)
  3. 3D Mesh
  4. Depth Channel and Encodings
  5. 八叉树
  6. Stixels
  7. Truncated Signed Distance Function
  8. 构造立体几何

核心技术

1、Convolutional Neural Networks
CNN具有强大的特征拟合能力,非常适合结构化数据的特征提取和表示。

在这里插入图片描述
2、Recurrent Neural Networks
RNN的隐藏状态提供了一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值