【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

最新推荐文章于 2024-11-03 13:51:35 发布

EEPI

最新推荐文章于 2024-11-03 13:51:35 发布

阅读量505

点赞数 5

分类专栏：自动驾驶大模型领域的论文精读笔记文章标签：自动驾驶人工智能论文阅读深度学习目标检测

本文链接：https://blog.csdn.net/eepii/article/details/140683019

版权

21 篇文章 1 订阅

订阅专栏

1 背景

团队：地平线
时间：
代码：
简介：

PETR是query-based方法，但是为了实现特征融合，进行了全局注意力机制，导致高计算量。

image通过backbone和FPN，得到多尺度特征，略。

这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息，初始化900组特征和anchor，然后选出打分最高的300组highest confidence instances给到multi-frame layers。

这一层拿到sigle frame layer输出的300组障碍物信息，然后再从memory queue中提取600组障碍物信息，进行拼接。这600个是已经在上一帧出现过的
a. 注意获取的600组障碍物，其anchor经过了坐标转换的。
先经过cross attention，进行障碍物与其历史的时序特征交互；从图上来看，query是之前的600和现在的300，但是key和value是之前的900，这是怎么进行时序交互的呢？
再进行self-attention，进行障碍物之间的特征交互；这个才是cross attention吧
再进行deformable aggregation + FFN + output layer
a. 注意在Sparse4Dv1中，有一个权重计算，这个权重是分配了不同尺度和不同视角的权重，跟相机参数有关；在v2中，直接把相机参数编码进去，那样能避免模型再学，导致泛化性能差（换一个其他参数的相机就不行了）