BEVFormer 论文笔记

参考代码:BEVFormer
paper:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

1. 概述

导读:这篇文章介绍了一种基于transformer的bev特征提取算法,在该算法中包含了对空间域和时间域信息的融合,对应的模块便是spatial cross-attention和temporal self-attention,这样便可以高效感知车辆周围环境以及利用前后帧信息处理遮挡情况。通过建立3d bev grid在spatial和temporal维度的信息索引,文章构建了一种适合多任务的bev特征提取方法。

在文章的bev特征提取方案中需要解决的是bev grid(3D)在多视图图像中的空间索引,以及当前帧bev特征与之前帧中bev特征的关联,也就是下图中展示的spatial和temporal维度信息如何去索引:
在这里插入图片描述
对于spatial维度上的特征索引,可以通过3D bev grid中的点从3D到2D的投影获得reference points,之后在reference points的基础上添加具有偏移属性deformable attention操作去感知local区域的特征。对于temporal维度上的索引,可以通过类似RNN的机制实现序列关联。

2. 方法设计

2.1 整体pipeline

文章的整体pipeline见下图所示:
在这里插入图片描述
根据上图文章的方法可以划分为如下几个步骤:

  • 1)通过CNN网络抽取多视图特征,更大的backbone带来更好的性能;
  • 2)通过堆叠多层的temporal self-attention和spatial cross-attention(transformer layer)实现3d bev grid的特征索引构建对应bev特征;
  • 3)在上述得到的bev特征的基础上添加多任务头,实现多任务预测;

2.2 spatial cross-attention

在进行spatial cross-attention之前需要计算预先定义好的3d bev特征在输入多视图特征的位置,这些位置被称之为reference points。其计算是根据3d空间到2d空间的投影实现的,具体的映射过程可以参考:

# projects/mmdet3d_plugin/bevformer/modules/encoder.py#L90
def point_sampling(self, reference_points, pc_range,  img_metas):
    ...

在上述的代码中除了计算每个3d bev grid到多视图特征的投影,还会通过这些投影操作(记为 P ( p , i , j ) \mathcal{P}(p,i,j) P(p,i,j))预先计算出可能投影到的位置(文章将这些通过相机参数匹配上的点称之为 V h i t \mathcal{V}_{hit} Vhit,其可能在多个视图上),从而得到一个掩膜mask,该mask就可以在多视图特征中排除一些无关的区域,从而加快运算速度。那么对于当前3d bev grid的索引 Q p Q_p Qp其在多视图特征下的计算可以描述为:
S C A ( Q p , F t ) = 1 V h i t ∑ i ∈ V h i t ∑ j = 1 N r e f D e f o r m A t t n ( Q p , P ( p , i , j ) , F t i ) SCA(Q_p,F_t)=\frac{1}{\mathcal{V}_{hit}}\sum_{i\in \mathcal{V}_{hit}}\sum_{j=1}^{N_{ref}}DeformAttn(Q_p,\mathcal{P}(p,i,j),F_t^i) SCA

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值