azure kinect三维点云_基于点云 / RGBD的3D视觉检测技术

本文深入探讨了基于点云和RGBD的3D视觉检测技术,包括基于鸟瞰图的方法如MV3D和AVOD,基于Voxel Grid的方法如3D-FCN和SparseConv,以及直接处理原始点云的PointNet系列方法。通过这些技术,3D视觉检测在自动驾驶、机器人导航等领域展现出巨大潜力。
摘要由CSDN通过智能技术生成

9e1d26320ecfe48dd99624a7148c01cd.png

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。

  • 书的购买链接
  • 书的勘误,优化,源代码资源

本文PDF全文链接:基于点云 / RGBD的3D视觉检测技术

基于点云 / RGBD的3D视觉检测技术

3D视觉技术相较于2D视觉能获取更丰富更全面的环境信息,已经成为机器人导航、无人驾驶、增强/虚拟现实、工业检测等领域的关键技术.当前基于2D的的计算机视觉技术日趋成熟,在很多领域取得了很不错的进展,但我们真实的世界是三维空间,利用2D的技术对真实世界进行建模存在先天的缺陷——深度信息缺失,我们不能从2D图片中获得物体的绝对尺度和位置,而这一点在点云中不会存在问题.“从单幅图像到双目视觉的3D目标检测算法”介绍了基于单目(monocular)视觉以及双目(binocular)视觉的3D目标检测算法,单目做3D检测完全是数据驱动,通过机器学习模型结合摄影几何的约束去拟合3D空间的数据分布;双目视觉会有额外的视差信息,可以重建出景深信息,所以可以得到比单目视觉更强的空间约束关系,在3D目标检测任务重的精度相比单目会更好.

b990ff6ee4372f3657a808b1404ca89a.png

今天的文章主要介绍基于点云数据的目标检测,点云可以直接由激光雷达扫描得到也可以通过深度传感器比如PrimeSense的PrimeSensor、微软的Kinect、华硕的XTionPRO等带深度感知的设备获取RGBD图像然后构造点云.

c5613bd2b8fee9f3d59090814e8aebda.png

点云数据天然具有强几何信息,很适合3D目标检测任务,常见的三维数据格式有点云(point cloud),体素(voxel grid),Mesh以及TSDF,对于每种格式的应用场景这里不做过多描述. 目前基于3D点云的目标检测大致分为以下几类:

1.基于鸟瞰图(Bird-Eye-View)的方法:

此类方法将点云投射到鸟瞰图上,利用BEV图生成proposal区域进而结合多个模态RGB/Front-View点云进行3D bbox的预测. 其中代表性的方法有MV3D[1] 和AVOD[2]

MV3D

2d31da952c08a228cd44734fccc47d22.png

该作者提出了一个多视角(Multi-View)的3D物体检测框架,采用多模态的数据作为输入包括点云的BVE图, 点云FV图以及对应的RGB图。

从上图可以看到,作者将鸟瞰图中点云进行离散化,按照0.1m X 0.1m的cell进行投影并针对按照Z轴将点云划分成M层得到具有M个通道的Height map; Density map是统计的投影到X-Y平面的点云密度; Intensity map是对点云中每个点反射强度的统计. 下图是MV3D的网络结构图,分为三个分支,采用CNN对每个分支进行encoding,其中利用第一个BVE分支进行proposal box的预测.该框架属于两阶段预测的方法,在第二个refine的阶段,作者实验了不同的策略对第

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值