FB-BEV：BEV Representation from Forward-Backward View Transformations

最新推荐文章于 2024-05-04 11:45:00 发布

m_buddy

最新推荐文章于 2024-05-04 11:45:00 发布

阅读量1k

点赞数 17

分类专栏： BEV Perception 文章标签：计算机视觉

本文链接：https://blog.csdn.net/m_buddy/article/details/136062377

版权

BEV Perception 专栏收录该内容

55 篇文章 36 订阅

订阅专栏

参考代码：FB-BEV

动机与出发点
基于几何关系的BEV投影过程，依据BEV特征获取方式进行划分：图像角度使用类似LSS方案“push”过程或者BEV特征角度使用类似Fast BEV方案的“pull”过程。前者产生的BEV特征是稀疏的矩阵，后者产生的BEV特征在深度上是不可知的，也就是无法感知实际物体中的深度。对此，文章结合两种BEV投影的方法构建了一个BEV转换策略，既是首先使用“push”的方法构建一个base BEV特征，由于这些特征比较粗糙使用一个“RPN”细化并区分其中的前景和背景，再将确定的前景背景点去“pull”信息来优化BEV，在这个过程中都会用到估计出来的深度分布和假定的深度分布（用于与估计的深度分布联合计算特征融合概率）。这篇文章的方法在逻辑上没有问题，肯定能带来性能的提升，但是实车部署起来有点难度，业界还是希望那种简洁高效（时耗与计算效率）一点的BEV转换模块，比如Fast BEV、BevLaneDet中的VPN。下表是文章的方案在时耗上的比较：
在这里插入图片描述

方法设计
下图中绘制了文章方法的两个支路：F-VTM和B-VTM，前面支路的结构作为下面支路的RoI输入，这样级连优化BEV特征表达
在这里插入图片描述

对于F-VTM就是使用LSS这样的方法去构建一个BEV特征，这个特征构建是一个稀疏的矩阵，由这个矩阵预测一个二值mask $M\in R^{H*W}$ ，这个二值mask使用dice和交叉墒损失函数进行约束。在此基础上通过给定阈值 $t_f$ 来确定前景和背景点，再通过采样方式确定一些前景和背景点给B-VTM分支。这路分支拿到这些采样点之后使用，如Fast-BEV、BEVFormer这样的方法去优化这些采样点特征的表达。这里需要注意的一点是在优化过程中会依据估计的深度概率分布（下图中对应的 $\alpha$ ）和BEV网格构建的深度分布（下图中对应的 $\beta,\gamma$ ）进行特征点加权概率值计算。这个加权概率值描述的是从ego投射出去的一条射线，这个射线映射会到图像特征上，那么这个概率是图像特征在射线每个位置点上的出现概率，也就是下图中对应的 $w_c$ 。

在这里插入图片描述

实验结果
nuScenes val上的性能表现：
在这里插入图片描述
nuScenes test上的性能表现：

m_buddy

关注

17
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
FB-BEV：BEV Representation from Forward-Backward View Transformations

前者产生的BEV特征是稀疏的矩阵，后者产生的BEV特征在深度上是不可知的，也就是无法感知实际物体中的深度。对此，文章结合两种BEV投影的方法构建了一个BEV转换策略，既是首先使用“push”的方法构建一个base BEV特征，由于这些特征比较粗糙使用一个“RPN”细化并区分其中的前景和背景，再将确定的前景背景点去“pull”信息来优化BEV，在这个过程中都会用到估计出来的深度分布和假定的深度分布（用于与估计的深度分布联合计算特征融合概率）。）和BEV网格构建的深度分布（下图中对应的。，也就是下图中对应的。
复制链接

扫一扫

专栏目录