azure kinect三维点云_基于点云 / RGBD的3D视觉检测技术

最新推荐文章于 2023-10-28 09:36:07 发布

weixin_39873456

最新推荐文章于 2023-10-28 09:36:07 发布

阅读量306

点赞数

文章标签： azure kinect三维点云

本文链接：https://blog.csdn.net/weixin_39873456/article/details/112329926

版权

本文深入探讨了基于点云和RGBD的3D视觉检测技术，包括基于鸟瞰图的方法如MV3D和AVOD，基于Voxel Grid的方法如3D-FCN和SparseConv，以及直接处理原始点云的PointNet系列方法。通过这些技术，3D视觉检测在自动驾驶、机器人导航等领域展现出巨大潜力。

摘要由CSDN通过智能技术生成

原创声明：本文为 SIGAI 原创文章，仅供个人学习使用，未经允许，不能用于商业目的。

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

书的购买链接
书的勘误，优化，源代码资源

本文PDF全文链接：基于点云 / RGBD的3D视觉检测技术

基于点云 / RGBD的3D视觉检测技术

3D视觉技术相较于2D视觉能获取更丰富更全面的环境信息,已经成为机器人导航、无人驾驶、增强/虚拟现实、工业检测等领域的关键技术.当前基于2D的的计算机视觉技术日趋成熟,在很多领域取得了很不错的进展,但我们真实的世界是三维空间,利用2D的技术对真实世界进行建模存在先天的缺陷——深度信息缺失,我们不能从2D图片中获得物体的绝对尺度和位置,而这一点在点云中不会存在问题.“从单幅图像到双目视觉的3D目标检测算法”介绍了基于单目(monocular)视觉以及双目(binocular)视觉的3D目标检测算法,单目做3D检测完全是数据驱动,通过机器学习模型结合摄影几何的约束去拟合3D空间的数据分布;双目视觉会有额外的视差信息,可以重建出景深信息,所以可以得到比单目视觉更强的空间约束关系,在3D目标检测任务重的精度相比单目会更好.

今天的文章主要介绍基于点云数据的目标检测,点云可以直接由激光雷达扫描得到也可以通过深度传感器比如PrimeSense的PrimeSensor、微软的Kinect、华硕的XTionPRO等带深度感知的设备获取RGBD图像然后构造点云.

点云数据天然具有强几何信息,很适合3D目标检测任务,常见的三维数据格式有点云(point cloud),体素(voxel grid),Mesh以及TSDF,对于每种格式的应用场景这里不做过多描述. 目前基于3D点云的目标检测大致分为以下几类：

1.基于鸟瞰图(Bird-Eye-View)的方法：

此类方法将点云投射到鸟瞰图上，利用BEV图生成proposal区域进而结合多个模态RGB/Front-View点云进行3D bbox的预测. 其中代表性的方法有MV3D[1] 和AVOD[2]

MV3D

该作者提出了一个多视角（Multi-View）的3D物体检测框架，采用多模态的数据作为输入包括点云的BVE图, 点云FV图以及对应的RGB图。

从上图可以看到,作者将鸟瞰图中点云进行离散化,按照0.1m X 0.1m的cell进行投影并针对按照Z轴将点云划分成M层得到具有M个通道的Height map; Density map是统计的投影到X-Y平面的点云密度; Intensity map是对点云中每个点反射强度的统计. 下图是MV3D的网络结构图,分为三个分支,采用CNN对每个分支进行encoding,其中利用第一个BVE分支进行proposal box的预测.该框架属于两阶段预测的方法,在第二个refine的阶段,作者实验了不同的策略对第