MV3D(Muti-view 3D Object Detection)是将3D点云和相机RGB图像在数据级进行前融合的技术,其输入的传感器数据包括:
- 点云鸟瞰图(Bird eye View)
- 点云前视图(Front View)
- 车载前视相机RGB图像(Front Camera)
学习过基于点云的语义分割网络的都知道,点云数据存在无序性,稀疏性和直接3D卷积计算量过大的特点.所以一般在将点云输入网络之前,都会将点云数据投射到特定的二维平面,比如:鸟瞰图或前视图. 然后采用基于笛卡尔坐标系(如百度Apollo的cnn_seg)或极坐标系(如PolarNet)对二维平面映射进行网格分割,最后按照二维图像卷积网络来提取特征. MV3D的提出早于这些新技术,但也是基于这种方法.
MV3D的网络结构图如下(图片来源于网络):
MV3D的过程大致如下:
一. 对输入的点云鸟瞰图二维映射图(高度图,密度图和强度图),经过一个称为3D Proposal Network的网络(类似两阶于物体检测网络Faster RCNN中的RPN),经提取特征(骨干网络VGG-16)并生成目标物体的3维边框,并把这种3维边框候选框共享给点云前视映射图分支和相机RGB分支. 同时生成基于鸟瞰映射图的ROI;
二. 对点云的前视映射图提取特征并利用鸟瞰映射图分支共享的3维候选框,生成前视映射图分支的ROI;
三, 对前视相机RGB图像提取取特征并利用鸟瞰映射图分支共享的3维候选框,生成前视RGB图像支的ROI;
四. 对三个分支生成ROI(利用ROI Pooling),利用Region-based Fusion Network进行融合, 融合方式上采用基于逐点均值运算的深度融合方式.
五. 与两阶物体检测网络Faster RCNN类似,最后对深度融合后的目标进行分类得到物体类别,对3维候选框进行回归得到每个物体的3维边框. (注: MV3D预测的目标物体3维边界框采用8个顶点3维坐标(x,y,z)表示,即一个预测框需要3x8共24个值.)
总结,MV3D在技术上目前来看虽有写过时,但偌借鉴其思想将目前最新的点云语义分割和检测网络技术融入其中,也是一种新的尝试.