Multi-View 3D Object Detection Network for Autonomous Driving
本文提出一种多模态的3D目标检测,融合了视觉和雷达点云信息。和以往基于voxel的方法不同,它只用了点云的俯视图和前视图,这样既能减少计算量,又不至于丧失过多的信息。随后生成3D候选区域,把特征和候选区域融合后输出最终的目标检测框。
作者认为基于LIDAR点云的方法通常可以获得更准确的3D目标位置,而基于图像的方法就2D目标评估具有更高的精度。
整体架构如下图所示,多模态3D检测网络由两部分组成:特征提取网络和信息融合网络。
下面对整个架构进行拆解
1)特征提取
a. 提取点云俯视图特征信息
俯视图由高度、强度、密度组成,投影到分辨率为0.1的二维网格中。
对于每个网格来说,高度特征有点云单元格中的最高值得出;为了编码更多的高度特征,点云被分为M块,每一个块都计算相应的高度图,从而获得了M个高度图。
强度是每个单元格中有最大高度的点的映射值。
密度表示每个单元格中点的数目,为了归一化特征,被计算为: