BevFormer方法解析

这篇文章的目的是分析BevFormer的架构图和公式,至于相关背景和实验结果,则不赘述。BevFormer的架构图如下:

        关注上图中间的第二部分,它由一个时间自注意力层(Temporal Self-Attention)、一个空间交叉注意力层(Spatial Cross-Attention)和一个前馈层构成,其输入来源有三:

1、环视摄像头提取的特征图F_t

2、历史鸟瞰图特征B_{t-1}

3、鸟瞰图查询Q

        其中B_{t-1}Q是TSA层的输入。它计算了B_t上每个点p相对于上一帧BEV特征B_{t-1}的上下文向量,它会捕捉到每个BEV上的特征点对上一帧中附近局部特征点的依赖性。

        F_tQ是SCA层的输入。对于BEV特征图中的每个点p,它采样N个不同高度的点,投影到环视特征图上,计算BEV视图上p点相对于这些投影点的加权上下文向量,再通过最上层的前馈残差网络得到B_t。它会捕捉到每个点对和它相关物体的依赖性。

        上面公式中的可变形注意力(Deform Attention)定义如下面公式。可以把它理解为一个更高效的计算多头注意力的方法,它计算的结果仍然是一个在q点的上下文向量。和普通的多头注意力相比,它只加权了N_{key}个不同的特征点,因此计算量更低。这导致BevFormer的注意力部分的计算复杂度比O(n^2)更小,其中n是BEV特征图的大小。另外一部分计算量是Backbone,它的计算复杂度是O(N^2*K^2*M),其中N^2是图像大小,K^2是卷积核大小,M是卷积核数量。比较起来,Backbone的复杂度似乎更大,那么BevFormer的整体复杂度应该和ResNet相当。

        

  • 9
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值