激光雷达与相机图像融合的方式
Bevfusion做的是雷达和图像的融合,然后得到BEV特征用于后续的3D检测(或其他下游任务)
首先,就来讲讲雷达和图像的融合方式,如下图所示:
a.将图像特征投影到原始点云上的点级融合机制
从点出发,从点云中采样一些点,然后根据相机的内参和外参矩阵,投影到图像上,采样到图像特征,然后拼接回点云,利用融合后的特征经过点云处理模块去做3D检测
b.将LiDAR 特征或建议分别投影到每个视图图像上以提取RGB信息的特征级融合机制
将两种模态的中间特征通过内外参矩阵,拼接投影,融合出完整的特征,传递的是query,输入点云,通过一个点云网络,得到初始位置,初始位置去图像上采样特征,采样完再拼接到原始点云特征上
c.提出将相机网络与LiDAR输入分离
相机内外参偏差,点云投影会有偏差;相机卡帧;雷达出问题
前两种有主次依赖关系,一方出错影响另一方,故提出并行框架
模型架构
看上面的模型架构,由三块构成:相机分支、点云分支,融合预测。下面笔者分开来讲解。
PS:BEVFusion 还有一个特点