传统方案:利用2D模型在各自的相机视角获取3D检测结果。再通过后处理算法将各个视角的3D检测框投影到ego frame,融合到一起。这样的做法简单有效,但也有如下缺点: 将多视角融合的步骤排除在模型学习之外,导致其难以检测相邻环视相机重叠部分中被截断的物体。难以实现与3D点云传感器(LiDAR)的数据级/特征级融合。