BevFormer方法解析

白衣术士

已于 2024-03-26 20:01:25 修改

阅读量446

点赞数 9

文章标签：深度学习人工智能

于 2024-03-26 19:59:42 首次发布

本文链接：https://blog.csdn.net/weixin_36598047/article/details/137051979

版权

这篇文章的目的是分析BevFormer的架构图和公式，至于相关背景和实验结果，则不赘述。BevFormer的架构图如下：

关注上图中间的第二部分，它由一个时间自注意力层(Temporal Self-Attention)、一个空间交叉注意力层(Spatial Cross-Attention)和一个前馈层构成，其输入来源有三：

1、环视摄像头提取的特征图 $F_t$

2、历史鸟瞰图特征 $B_{t-1}$

3、鸟瞰图查询 $Q$

其中 $B_{t-1}$ 和 $Q$ 是TSA层的输入。它计算了 $B_t$ 上每个点 $p$ 相对于上一帧BEV特征 $B_{t-1}$ 的上下文向量，它会捕捉到每个BEV上的特征点对上一帧中附近局部特征点的依赖性。

$F_t$ 和 $Q$ 是SCA层的输入。对于BEV特征图中的每个点p，它采样N个不同高度的点，投影到环视特征图上，计算BEV视图上p点相对于这些投影点的加权上下文向量，再通过最上层的前馈残差网络得到 $B_t$ 。它会捕捉到每个点对和它相关物体的依赖性。

上面公式中的可变形注意力(Deform Attention)定义如下面公式。可以把它理解为一个更高效的计算多头注意力的方法，它计算的结果仍然是一个在q点的上下文向量。和普通的多头注意力相比，它只加权了 $N_{key}$ 个不同的特征点，因此计算量更低。这导致BevFormer的注意力部分的计算复杂度比O(n^2)更小，其中n是BEV特征图的大小。另外一部分计算量是Backbone，它的计算复杂度是O(N^2*K^2*M)，其中N^2是图像大小，K^2是卷积核大小，M是卷积核数量。比较起来，Backbone的复杂度似乎更大，那么BevFormer的整体复杂度应该和ResNet相当。

白衣术士

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BevFormer方法解析

这导致BevFormer的注意力部分的计算复杂度比O(n^2)更小，其中n是BEV特征图的大小。另外一部分计算量是Backbone，它的计算复杂度是O(N^2*K^2*M)，其中N^2是图像大小，K^2是卷积核大小，M是卷积核数量。可以把它理解为一个更高效的计算多头注意力的方法，它计算的结果仍然是一个在q点的上下文向量。对于BEV特征图中的每个点p，它采样N个不同高度的点，投影到环视特征图上，计算BEV视图上p点相对于这些投影点的加权上下文向量，再通过最上层的前馈残差网络得到。1、环视摄像头提取的特征图。
复制链接

扫一扫