BEVFormer

財鸟

已于 2022-11-23 20:32:33 修改

阅读量1.7k

点赞数 1

分类专栏：基于transformer的3D目标检测文章标签：深度学习人工智能

于 2022-11-20 11:01:12 首次发布

本文链接：https://blog.csdn.net/qq_46460131/article/details/127940536

版权

基于transformer的3D目标检测专栏收录该内容

1 篇文章 2 订阅

订阅专栏

论文：

《Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

官方链接：

(32 封私信) 自动驾驶BEV感知有哪些让人眼前一亮的新方法？ - 知乎 (zhihu.com)

较好的代码分析：

万字长文理解纯视觉感知算法 —— BEVFormer - 知乎

这个对工程文件的解读真的绝了，能帮助新手快速上手代码的整体框架

bevformer代码解读 - 知乎

主要工作：

一句话总结：

利用了transformer的查询机制来聚合时序信息和空间信息实现多视角输入到BEV视图的转换

总之，结合了注意力机制和时序信息。

关键设计：

网格状的空间查询，通过注意力机制灵活的融合空间特征和时间特征。
空间交叉注意力模块，聚合多相机图像的空间信息。
时间自注意力模块，从历史BEV特征中提取时序信息，有利于运动目标的的运动估计，和应对严重遮挡的目标检测。

BEVFormer

Overall Architecture

BEV queries的定义

定义了一组维度为H*W*C的可学习参数作为BEV queries, 用来捕获BEV特征。在nuScenes数据集上，BEV queries 的空间分辨率为200*200，对应自车周围100m*100m的范围。BEV queries 每个位于(x, y)位置的query都仅负责表征其对应的小范围区域。BEV queries 通过对spatial space 和 tempoal space 轮番查询从而能够将时空信息聚合在BEV query特征中。最终我们将BEV queries 提取的到的特征视为BEV 特征，该BEV特征能够支持包括3D 目标检测和地图语义分割在内的多种自动驾驶感知任务。

Spatial Cross-Attention

设计了一中空间交叉注意力机制，使BEV queries 从多相机特征中通过注意力机制提取所需的空间特征。由于本方法使用多尺度的图像特征和高分辨率的BEV特征，直接使用最朴素的global attention 会带来无法负担的计算代价。因此我们使用了一种基于deformable attention 的稀疏注意力机制时每个BEV query之和部分图像区域进行交互。具体而言，对于每一个位于(x, y)位置的BEV特征，我们可以计算其对应现实世界的坐标x',y'。然后我们将BEV query进行lift 操作，获取在z轴上的多个3D points。有了3D points, 就能够通过相机内外参获取3D points 在view 平面上的投影点。受到相机参数的限制，每个BEV query 一般只会在1-2个view上有有效的投影点。基于Deformable Attention, 我们以这些投影点作为参考点，在周围进行特征采样，BEV query使用加权的采样特征进行更新，从而完成了spatial 空间的特征聚合。

Temporal Self-Attention

从经典的RNN网络获得启发，我们将BEV 特征视为类似能够传递序列信息的memory。每一时刻生成的BEV特征都从上一时刻的BEV特征获取了所需的时序信息，这样保证能够动态获取所需的时序特征，而非像堆叠不同时刻BEV特征那样只能获取定长的时序信息。具体而言，给定上一时刻的BEV 特征，我们首先根据ego motion 来将上一时刻的BEV特征和当前时刻进行对齐，来确保同一位置的特征均对应于现实世界的同一位置。对于当前时刻位于(x, y)出的BEV query, 它表征的物体可能静态或者动态，但是我们知道它表征的物体在上一时刻会出现在(x, y)周围一定范围内，因此我们再次利用deformable attention 来以(x, y)作为参考点进行特征采样。我们并没有显式地设计遗忘门，而是通过attention 机制中的attention wights来平衡历史时序特征和当前BEV特征的融合过程。每个BEV query 既通过spatial cross-attention 在spatial space下聚合空间特征，还能够通过temporal self-attention 聚合时序特征，这个过程会重复多次确保时空特征能够相互促进，进行更精准的特征融合

思考：这里基于时序的注意力模块我看了很久都不太明白，目前的理解是encoder模块不是有6个吗，在第一个模块里，BEV queries是随机初始化的，而通过历史的BEV特征可以一定程度上帮助queries进行初始化。我之前的一个疑问是为什么是自注意力机制，以为query在历史BEV里加权搜集信息就好了，后面才反应过来那样理解的话6个模块级联有啥意义啊，所以除了第一个encoder里query是纯纯的在搜集历史信息外，后面的query都融合了历史特征和当前时刻空间特征，所以在后面的5个encoder里，历史BEV(t-1)和当前BEV(T)分别进行自注意力操作，输出在进行加权求和就好了。不要被那个BEV queries搞混了，作为一个encoder的输入其实际上就是上一个encoder的BEV特征输出，放到最后一个encoder其实就是最后输出的BEV特征图，和 history BEV本质上是一样的东西。