基于2.5/3D的自主主体室内场景理解研究

最新推荐文章于 2024-06-08 09:41:57 发布

Tom Hardy

最新推荐文章于 2024-06-08 09:41:57 发布

阅读量1k

收藏 6

点赞数 1

分类专栏：人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29462849/article/details/104851250

版权

作者：Tom Hardy
Date：2020-3-13
来源：基于2.5/3D的自主主体室内场景理解研究

参考链接：https://arxiv.org/abs/1803.03352

主要内容

摘要随着低成本、紧凑型2.5/3D视觉传感设备的出现，计算机视觉界对室内环境的视景理解越来越感兴趣。本文为本课题的研究提供了一个全面的背景，从历史的角度开始，接着是流行的三维数据表示和对可用数据集的比较分析。在深入研究特定于应用程序的细节之前，简要介绍了在文献中广泛使用的底层方法的核心技术。之后根据基于场景理解任务的分类，回顾了所开发的技术：包括全局室内场景理解以及子任务，例如场景分类、对象检测、姿势估计、语义分割、三维重建、显著性检测、基于物理的推理和提供性预测。随后，总结了用于评估不同任务的性能指标，并对最新技术进行了定量比较。最后对当前面临的挑战进行了总结，并对需要进一步研究的开放性研究问题进行了展望。

介绍

根据输入媒体的不同，视觉场景理解大致可以分为两类：静态理解（对于图像）和动态理解（对于视频）。本文特别关注室内场景2.5/3D视觉数据的静态场景理解。我们专注于3D媒体，因为3D场景理解能力是通用人工智能agent开发的核心，这些智能agent可以部署到各种新兴应用领域，如自主车辆、家用机器人、医疗保健系统、教育、环境保护和信息娱乐。

在这里插入图片描述

数据表示

下面将会重点介绍用于表示和分析场景的流行的2.5D和3D数据表示，现有常用的data representation主要有：

点云
Voxel Representation（体素）
3D Mesh
Depth Channel and Encodings
八叉树
Stixels
Truncated Signed Distance Function
构造立体几何

核心技术

1、Convolutional Neural Networks
CNN具有强大的特征拟合能力，非常适合结构化数据的特征提取和表示。

在这里插入图片描述
2、Recurrent Neural Networks
RNN的隐藏状态提供了一

最低0.47元/天解锁文章

Tom Hardy

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值