FB-BEV:BEV Representation from Forward-Backward View Transformations

参考代码:FB-BEV

动机与出发点
基于几何关系的BEV投影过程,依据BEV特征获取方式进行划分:图像角度使用类似LSS方案“push”过程或者BEV特征角度使用类似Fast BEV方案的“pull”过程。前者产生的BEV特征是稀疏的矩阵,后者产生的BEV特征在深度上是不可知的,也就是无法感知实际物体中的深度。对此,文章结合两种BEV投影的方法构建了一个BEV转换策略,既是首先使用“push”的方法构建一个base BEV特征,由于这些特征比较粗糙使用一个“RPN”细化并区分其中的前景和背景,再将确定的前景背景点去“pull”信息来优化BEV,在这个过程中都会用到估计出来的深度分布和假定的深度分布(用于与估计的深度分布联合计算特征融合概率)。这篇文章的方法在逻辑上没有问题,肯定能带来性能的提升,但是实车部署起来有点难度,业界还是希望那种简洁高效(时耗与计算效率)一点的BEV转换模块,比如Fast BEV、BevLaneDet中的VPN。下表是文章的方案在时耗上的比较:
在这里插入图片描述

方法设计
下图中绘制了文章方法的两个支路:F-VTM和B-VTM,前面支路的结构作为下面支路的RoI输入,这样级连优化BEV特征表达
在这里插入图片描述

对于F-VTM就是使用LSS这样的方法去构建一个BEV特征,这个特征构建是一个稀疏的矩阵,由这个矩阵预测一个二值mask M ∈ R H ∗ W M\in R^{H*W} MRHW,这个二值mask使用dice和交叉墒损失函数进行约束。在此基础上通过给定阈值 t f t_f tf来确定前景和背景点,再通过采样方式确定一些前景和背景点给B-VTM分支。这路分支拿到这些采样点之后使用,如Fast-BEV、BEVFormer这样的方法去优化这些采样点特征的表达。这里需要注意的一点是在优化过程中会依据估计的深度概率分布(下图中对应的 α \alpha α)和BEV网格构建的深度分布(下图中对应的 β , γ \beta,\gamma β,γ)进行特征点加权概率值计算。这个加权概率值描述的是从ego投射出去的一条射线,这个射线映射会到图像特征上,那么这个概率是图像特征在射线每个位置点上的出现概率,也就是下图中对应的 w c w_c wc

在这里插入图片描述

实验结果
nuScenes val上的性能表现:
在这里插入图片描述
nuScenes test上的性能表现:
在这里插入图片描述

  • 17
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值