BEVFormer

最新推荐文章于 2024-09-30 13:49:56 发布

Liuffet

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量418

点赞数 5

文章标签：人工智能自动驾驶深度学习

本文链接：https://blog.csdn.net/Silver_ljh/article/details/140843921

版权

文章目录

概要

使用可学习的 BEV query 通过 attention 与 spatial space 和 temporal space 交互。

整体架构流程

技术细节

我们设计了一中空间交叉注意力机制，使 BEV queries 从多相机特征中通过注意力机制提取所需的空间特征。由于本方法使用多尺度的图像特征和高分辨率的 BEV 特征，直接使用最朴素的 global attention 会带来无法负担的计算代价。因此我们使用了一种基于 deformable attention 的稀疏注意力机制时每个 BEV query 之和部分图像区域进行交互。

具体而言，对于每一个位于（x, y）位置的 BEV 特征，我们可以计算其对应现实世界的坐标 x',y'。然后我们将 BEV query 进行 lift 操作，获取在 z 轴上的多个 3D points。有了 3D points，就能够通过相机内外参获取 3D points 在 view 平面上的投影点。受到相机参数的限制，每个 BEV query 一般只会在 1-2 个 view 上有有效的投影点。基于 Deformable Attention，我们以这些投影点作为参考点，在周围进行特征采样，BEV query 使用加权的采样特征进行更新，从而完成了 spatial 空间的特征聚合。

从经典的 RNN 网络获得启发，我们将 BEV 特征视为类似能够传递序列信息的 memory。每一时刻生成的 BEV 特征都从上一时刻的 BEV 特征获取了所需的时序信息，这样保证能够动态获取所需的时序特征，而非像堆叠不同时刻 BEV 特征那样只能获取定长的时序信息。具体而言，给定上一时刻的 BEV 特征，我们首先根据 ego motion 来将上一时刻的 BEV 特征和当前时刻进行对齐，来确保同一位置的特征均对应于现实世界的同一位置。

对于当前时刻位于（x, y）出的 BEV query，它表征的物体可能静态或者动态，但是我们知道它表征的物体在上一时刻会出现在（x, y）周围一定范围内，因此我们再次利用 deformable attention 来以（x, y）作为参考点进行特征采样。

我们并没有显式地设计遗忘门，而是通过 attention 机制中的 attention wights 来平衡历史时序特征和当前 BEV 特征的融合过程。每个 BEV query 既通过 spatial cross-attention 在 spatial space 下聚合空间特征，还能够通过 temporal self-attention 聚合时序特征，这个过程会重复多次确保时空特征能够相互促进，进行更精准的特征融合。