原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。
其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。
- 书的购买链接
- 书的勘误,优化,源代码资源
本文PDF全文链接:基于点云 / RGBD的3D视觉检测技术
基于点云 / RGBD的3D视觉检测技术
3D视觉技术相较于2D视觉能获取更丰富更全面的环境信息,已经成为机器人导航、无人驾驶、增强/虚拟现实、工业检测等领域的关键技术.当前基于2D的的计算机视觉技术日趋成熟,在很多领域取得了很不错的进展,但我们真实的世界是三维空间,利用2D的技术对真实世界进行建模存在先天的缺陷——深度信息缺失,我们不能从2D图片中获得物体的绝对尺度和位置,而这一点在点云中不会存在问题.“从单幅图像到双目视觉的3D目标检测算法”介绍了基于单目(monocular)视觉以及双目(binocular)视觉的3D目标检测算法,单目做3D检测完全是数据驱动,通过机器学习模型结合摄影几何的约束去拟合3D空间的数据分布;双目视觉会有额外的视差信息,可以重建出景深信息,所以可以得到比单目视觉更强的空间约束关系,在3D目标检测任务重的精度相比单目会更好.
今天的文章主要介绍基于点云数据的目标检测,点云可以直接由激光雷达扫描得到也可以通过深度传感器比如PrimeSense的PrimeSensor、微软的Kinect、华硕的XTionPRO等带深度感知的设备获取RGBD图像然后构造点云.
点云数据天然具有强几何信息,很适合3D目标检测任务,常见的三维数据格式有点云(point cloud),体素(voxel grid),Mesh以及TSDF,对于每种格式的应用场景这里不做过多描述. 目前基于3D点云的目标检测大致分为以下几类:
1.基于鸟瞰图(Bird-Eye-View)的方法:
此类方法将点云投射到鸟瞰图上,利用BEV图生成proposal区域进而结合多个模态RGB/Front-View点云进行3D bbox的预测. 其中代表性的方法有MV3D[1] 和AVOD[2]
MV3D
该作者提出了一个多视角(Multi-View)的3D物体检测框架,采用多模态的数据作为输入包括点云的BVE图, 点云FV图以及对应的RGB图。
从上图可以看到,作者将鸟瞰图中点云进行离散化,按照0.1m X 0.1m的cell进行投影并针对按照Z轴将点云划分成M层得到具有M个通道的Height map; Density map是统计的投影到X-Y平面的点云密度; Intensity map是对点云中每个点反射强度的统计. 下图是MV3D的网络结构图,分为三个分支,采用CNN对每个分支进行encoding,其中利用第一个BVE分支进行proposal box的预测.该框架属于两阶段预测的方法,在第二个refine的阶段,作者实验了不同的策略对第