视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images

论文链接:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers(内附官方中文版)
提取码:z3un
源码:https://github.com/zhiqi-li/BEVFormer

文章侧重点

BEVFormer应用 Transformer 和时态结构,通过预定的网格状 BEV 查询向量从多摄像头输入中生成鸟瞰图 (BEV) 特征(图像特征转换为 BEV 特征)。
在这里插入图片描述

网络架构

  1. 采用两种backbone网络——ResNet101-DCN+VoVnet-99获取6个相机视角下的图像特征。 F t = F t i i = 1 N v i e w F_t={F_t^i}_{i=1}^{N_{view}} Ft=Ftii=1Nview
    在这里插入图片描述

  2. 时序自注意力机制:利用时间戳 t−1 的 BEV 特征。在每个编码器层,首先使用 BEV 查询向量 Q 通过时间自注意力从先验 BEV 特征 Bt−1 查询时间信息。对于每个序列的第一个样本,时间自注意力将退化为没有时间信息的自注意力。

  • BEV 查询向量Q :预定义了一组网格形状的可学习参数〖𝑄∈ℝ〗^(𝐻×𝑊×𝐶),位于 Q 的 p = (x, y) 查询 Qp∈R1×C 负责 BEV 平面中对应的网格单元区域。BEV 平面中的每个网格单元对应于真实世界的 s 米大小。
  • BEV 特征的中心默认对应自我车的位置。

在这里插入图片描述

  1. 空间交叉注意力机制:利用 BEV 查询向量 Q 从多摄像机特征 Ft 中查询空
    间信息。
    (x′, y′)表示p = (x, y) 的查询向量 Qp对应的真实世界位置。 在三维空间中,位于 (x′, y′) 的物体会出现在 z 轴的高度z′ 处.
    在这里插入图片描述
    在这里插入图片描述
    有关于其他细节请见中文版/英文版的论文~
    链接失效可留言更新
    QQ~
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值