前两步我们分布通过创建视锥获得[B, N, D, H, W, 3]尺寸的视锥,通过CamEncoder获得[B, N, D, H, W, 64]尺寸的语义+深度的featuremap。
接下来就需要结合二者,做Voxel Polling操作。具体包括:
1.视锥转voxel,也就是进行视锥体素化
2.再对voxel进行过滤,和增加batch_id
3.bev pool
实现流程
1、视锥体素化 frustum -> voxel
对于感知算法而言,我认为比较重要的是要了解在BEV视角下,x轴和y轴方向的感知距离,以及BEV网格的单位大小。在LSS源码中,其感知范围,BEV单元格大小,BEV下的网格尺寸如下:
# 根据世界坐标范围和一个像素代表的世界坐标距离来计算bev_size
xbound = [-