技术精讲 | BEVFormer,通过一个时空Transformer学习BEV表征

观点摘要:BEVFormer是最近两年内BEV模型研究很有标志性的工作,引导了基于Transformer架构的一系列BEV模型的探索研究,对自动驾驶BEV感知系统的量产落地有积极的意义。其采用自注意机制实现前后帧的BEV特征时域融合,同时采用交叉注意机制实现了多摄像头的空域融合。作者还利用了基于Transformer的检测器deformable DETR提出的deformable attention,提高了Transformer的效率。如何在嵌入式系统或者AI芯片中实现这种BEV模型的Transformer架构成为工业界应用的关键一环。

arXiv论文“BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers“,来自南京大学、上海人工智能实验室和香港大学。

3-D视觉感知任务,包括基于多摄像头图像的3-D检测和地图分割,对于自动驾驶系统至关重要。这项工作提出BEVFormer,学习统一的BEV表征和时空变换,支持多个自主驾驶感知任务。简而言之,BEVFormer通过预定义的网格状BEV,查询与空域和时域进行交互,从而利用空间和时间信息。为了聚集空间信息,设计一个空域交叉注意,每个BEV查询都从摄像机视图中感兴趣区域提取空间特征。对时域信息,提出一种时域自注意,反复融合历史BEV信息。代码将开源:https://github.com/zhiqi-li/BEVFormer.

在自动驾驶中,对周围场景的视觉感知预计将根据多个摄像头提供的2D线索预测3D边框或语义图。最简单的解决方案是基于单目系统和跨摄像头的后处理。该框架的缺点是,需要单独处理不同的视图,无法跨摄像头捕获信息,导致性能和效率低下。

作为单目系统的替代方案,更统一的框架是从多摄像机图像中提取整体表示。BEV是一种常用的周围场景表示法,显示了目标的位置和尺度,并且适用于各种自动驾驶任务,如感知和规划。尽管之前地图分割的方法证明了BEV的有效性,但基于BEV的方法在3D目标检测方面没有显示出比其他方式显著的优势。其根本原因是,3D目标检测任务需要强大的BEV特征来支持精确的3D边框预测,但从2D平面生成BEV是不适定的。

生成BEV特征的流行BEV框架基于深度信息,但这种模式对深度值或深度分布的准确性很敏感。因此,基于BEV的方法的检测性能会受到混合误差的影响,不准确的BEV特征会严重损害最终性能。该文的方法是一种不依赖深度信息的BEV生成,可以自适应地学习BEV特征,而不是严格依赖3D先验知识。其中Transformer使用注意机制动态聚合有价值的功能,在概念上满足需求。

BEV执行感知任务的另一个动机是,BEV是连接时空的理想桥梁。对于人类视觉感知系统来说,时间信息在推断目标的运动状态和识别遮挡目标方面起着至关重要的作用,视觉领域的许多工作已经证明了视频数据的有效性。然而,现有的最先进的多摄像头3D检测方法很少利用时间信息。重要的挑战是,自动驾驶是时间紧要的,场景中的目标变化迅速,因此简单地堆叠交叉时间戳的BEV特征会带来额外的计算成本和干扰信息,并不是理想的方式。受递归神经网络(RNN)的启发,该文利用BEV特征反复传递历史时间信息,类似于RNN模型的隐状态。

如图所示:提出的BEVFormer,应用Transformer(空域)结构和Temporal结构(时域)从多摄像头输入生成鸟瞰图(BEV)特征。BEVFormer利用查询查找空域和时域,并相应地聚合时-空信息,有利于实现感知任务的更强表征。

如图是BEVFormer的总体架构:BEVFormer有6个编码层,除了三种定制设计,即BEV查询、空域交叉注意和时域自注意外,每个编码层都遵循Transformer的传统结构。具体来说,BEV查询是网格形的可学习参数,旨在通过注意机制从多摄像机视图中查询BEV空域特征。空域交叉注意和时域自注意是用于BEV查询的注意层,根据BEV查询,用于查找和聚合多摄像头图像空域特征以及历史的BEV时域特征。(a) BEVFormer的编码层包含网格状的BEV查询、时域自注意和空域交叉注意。(b) 在空域交叉注意中,每个BEV查询只与感兴趣区域的图像特征交互。(c) 在时域自注意中,每个BEV查询与两个特征交互,即当前时间戳的BEV查询和前一时间戳的BEV特征。

在推理过程中,在时间戳t,将多摄像头图像馈送到主干网络(例如,ResNet-101),并获得不同摄像头视图的特征Ft={Fti},其中Fti是第i视图的特征。同时,保留在之前时间戳t−1的BEV特征Bt-1;在每个编码器层中,首先通过时域自注意,用BEV查询Q从之前的BEV特征Bt-1查询时域信息。然后,用BEV查询Q通过空间交叉注意从多摄像头特征Ft中查询空域信息。前馈网络之后,编码器层输出细化BEV特征,作为下一个编码器层的输入。在6个堆积编码器层之后,在当前时间戳t处生成统一BEV特征Bt。以BEV特征Bt为输入,3D检测头和地图分割头预测3D边框和语义地图等感知结果。

这里deformable注意机制定义:

空域交叉注意机制定义:

时域自注意层定义:

由于BEV特征Bt是一种通用的2D特征图,因此可以基于2D感知方法开发3D目标检测和地图分割任务头,只需稍加修改。

对于3-D目标检测,设计一种基于2-D检测器deformable DETR的端到端3-D检测头。修改包括使用单尺度BEV特征Bt作为解码器的输入,预测3D边框和速度,而不是2D边框,仅使用L1损失来监督3D边框回归。有了探测头,模型可以端到端地预测三维边框和速度,无需NMS后处理。

对于地图分割,设计一个基于2-D分割方法Panopic SegFormer的地图分割头。由于基于BEV的地图分割与常见的语义分割基本相同,用掩码解码器和固定类查询来针对每个语义类别,包括汽车、车辆、道路(可行驶区域)和车道等。

实验结果如下:

写在最后!

『深信科创Carla交流群』招募开始啦!欢迎各位喜欢使用Carla的爱好者入群进行交流哈~后期群里将会不定期分享与Carla有关的专业文章以及活动,也欢迎大家可以邀请身边感兴趣的朋友入群一起交流哈~

如群已超出人数限制,请添加深信科创小助手微信号:synkrotron1,备注「Carla」即可加入。

深信科创:致力于自动驾驶工业软件

深信科创是一家专注于提供自动驾驶仿真及智慧交通解决方案的国家高新技术企业。公司基于人工智能、软件测试、数字孪生与大数据等技术,致力于自动驾驶工具链的研发,拥有一支高素质的研发团队,研发了国际领先的自动驾驶仿真及数据闭环工具链SYNKROTRON™ Oasis产品系列,能够提供高精度传感器模型、动力学模型及感知级交通环境仿真解决方案等,客户可以在仿真平台上对自动驾驶系统开展大规模的仿真测试和模型训练,提前识别自动驾驶系统缺陷、降低实车测试成本、消除场景端落地的安全隐患,加速自动驾驶技术在场景端的安全落地。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值