原理图:
整体梳理:
3D-CVF使用交叉视图空间特征融合策略将相机和 LiDAR 特征相结合。
首先,该方法采用自校准投影,将 2D 相机特征转换为平滑的空间特征图,与鸟瞰图 (BEV) 域中的 LiDAR 特征具有最高的对应关系。
然后,应用门控特征融合网络,使用空间注意力图,根据区域适当地混合相机和 LiDAR 特征;
接下来,在后续的提案细化阶段也实现了摄像头-LiDAR 特征融合。低级 LiDAR 特征和摄像头特征使用基于感兴趣区域 (RoI) 的特征池分别池化,并与联合摄像头 LiDAR 特征融合,以增强提案优化。
第一部分 LiDAR Pipeline
1.原始点云划分体素后经过3D稀疏卷积网络进行处理。6层稀疏卷积层,步长为2,最后特征图的空间分辨率会减少8倍。
2.转至BEV域。
3.对稀疏卷积网络提取的特征进行ROI池化,提取感兴趣的区域后执行pointnet encode进行编码。
第二部分 Camera Pipeline(与第一部分并行处理)
1.Camera backbone是CNN+FPN提取六个角度的图像特征。
2.对图像特征提取感兴趣的区域并进行编码。
注意:由于相机视图特征在与 3D RoI 框不同的域中表示,因此这里设计了基于 RoI 网格的池化。
3D RoI 框中的 r ×r ×r 等距坐标点投影到相机视域,与这些点对应的相机特征像素由 PointNet 编码器编码。这些编码的多视图相机特征的串联形成另一个 1 × 1 特征向量。
第三部分 Cross-view feature mapping
原理图:
流程:
1.体素中心投影到相机视图平面中的(ˆ x, ˆ y),并且 (ˆ x, ˆ y) 由校准偏移量 (∆x, ∆y) 进行调整。
2.将靠近校准位置(ˆ x + ∆x、ˆ y + ∆y)的相邻相机特征像素与通过插值方法确定的权重相结合。目的是提高投影的精度,使其更贴近真实的相机视角特征位置。
3.组合像素向量公式如下:
其中集合 {fm,n} 对应于最接近(ˆ x+ ∆x, ˆ y + ∆y)的四个相邻特征像素,wm,n 是通过插值方法获得的权重。目的是计算组合特征。
第四部分 Gated Camera-LiDAR Feature Fusion
公式:
理解:
第五部分 3D RoI Fusion-based Refinement
1.融合的特征首先获取初始框。
2.基于 3D ROI 的融合网络融合了RPN、ROI、图像编码特征和点云编码特征再进行分类,预测。