LSS算法核心原理详细解读，一看就懂，不懂请打我！

最新推荐文章于 2025-06-09 00:30:00 发布

原创最新推荐文章于 2025-06-09 00:30:00 发布 · 4.7k 阅读

CC 4.0 BY-SA版权

文章标签：

1 篇文章

订阅专栏

在这里插入图片描述

总体流程：像素视锥点->剔除图像增强矩阵的影响->生成camera坐标系下的三维视锥点->将视锥点投影到ego坐标系下
像素视锥点（u,v,d）的选择：
- 由于最终的特征图尺寸为：8 x 22，则在原始图像上将图片分为8 x 22个图片块（patch）
- 将每个图像块的顶点 + 预设深度（4~45m），即可完成视锥点的构建，形状为D x fH x fW x 3
- 下图所示，第一列为x坐标、第二列为y坐标，第三列为预设深度值
- 代码如下所示：

在这里插入图片描述

剔除增强矩阵的影响
- 目的：例如，可消除图片旋转的影响
- 利用下列公式消除图像增强的像素视锥的影响
  $p^{'}_{img}=A^{-1}p_{img}$
获得camera坐标系下视锥点的坐标：
- 利用下列公式，最终才能获得三维坐标系下的视锥点（形状如视锥）
  $p_{cam} = I^{-1}(p_{img}*d)$
将camera坐标系下的视锥点转换到ego坐标系
- 利用camera->ego的TF变换关系能够直接获得，略
- 最终获得的视锥点形状为：B x N x D x H x W x 3

目的：将环视图像特征转换为BEV特征
已有图像特征：B x N x D x H x W x C；视锥点：B x N x D x H x W x 3
- 将图像特征铺开，变为（B x N x D x H x W） x C；将视锥点铺开，变为（B x N x D x H x W） x 3。此时，视锥点与图像特征一一对应，可通过训练获得该内在联系
- 将视锥点分配到预设的BEV网格内，获得栅格坐标。如下公式所示，其中bx：第一个网格的中心点；dx：每个网格的宽度；gemoFeats为视锥点。
  - 由于计算栅格坐标时，是取整操作（int），所以存在某几个视锥点位于一个栅格网格内
  - 由于预设的xyz范围为[-50, 50]、[-50, 50]、[-10, 10]，所以可剔除超出该范围的视锥点。同时，也剔除对应的图像特征点

$g e m o F e a t = g e m o F e a t - (b x - d x /2) / d x$

将一个栅格内多个视锥点对应的特征点进行sum pooling，也就是将落在同一个栅格内的多个特征点进行相加操作
- 由于特征点的shape大小不一，无法进行批量操作，需要使用如下代码部分进行操作，但实现的效果如上所示。
- 论文中，经过sum pooling后，图像特征的shape为：17375 x 64

在这里插入图片描述