参考代码:bevfusion
1. 概述
介绍:在这篇文章中提出一种Lidar和Camera在BEV空间下实现特征融合的方法,有效利用了图像丰富语义信息和雷达深度信息,构建一个不同模态数据融合的范式。对于图像部分生成BEV特征采用的是LSS的方案,不过这里对“splat”这个操作进行了改进(这个操作在原版实现中比较耗时,距离实际工程化又近了一步),也就是通过GPU多线程的特性直接在不同的深度bins下求和,而不需要累加求和之后再相减,这样便可极大提升运算的效率(文中指出大概快了40倍)。
Lidar数据和Camera数据他们的局限如下图:
将Lidar的点云投影到图像上是一种前融合策略,但是实际中能正确匹配上图像的Lidar点其实只占很少的一部分,对此最右边就是文章提出的在BEV空间下的特征融合。
2. 方法设计
2.1 网络结构
下图展示的是文章方法的结构:
从上图中可以看到文章的方法采取的是不同传感器中融合的结构,融合是在BEV空间下完成的,同时还设计了一个