SOTA!TBP-Former:纯视觉时序BEV金字塔的联合感知与预测新方案!(CVPR23)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到上海交通大学MediaBrain团队分享CVPR 2023中稿的纯视觉联合感知与预测算法TBP-Former,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【轨迹预测】技术交流群

后台回复【轨迹预测综述】获取行人、车辆轨迹预测等相关最新论文!

论文题目:TBP-Former: Learning temporal bird's-eye-view pyramid for joint perception and prediction in vision-centric autonomous driving

论文链接:https://arxiv.org/abs/2303.09998

代码链接:https://github.com/MediaBrain-SJTU/TBP-Former

摘要

纯视觉自动驾驶如何具备精准的联合感知和预测?在最新的CVPR2023 论文《TBP-Former: Learning temporal bird's-eye-view pyramid for joint perception and prediction in vision-centric autonomous driving》中,来自上海交通大学MediaBrain、上海人工智能实验室以及南加州大学的研究团队提出了纯视觉的联合感知与预测方案TBP-Former,解决了时序BEV特征对齐和时空特征提取问题,在nuScenes数据集上取得SOTA表现。

研究背景和意义

实现完全的全自动驾驶几十年来一直是许多研究人员和工程师的梦想。虽然在各个自动驾驶任务上我们已经取得了重大进展,但设计实现完全自动驾驶的实际解决方案仍然是个开放的问题。传统和常见的解决方案由感知、预测、计划和控制的顺序级联组成。尽管分而治之的思想在开发软件系统方面取得了巨大的成功,但过长的级联可能会导致级联误差与故障。在最新的自动驾驶技术研究中,联合感知与预测(PnP)已成为一个重要的新趋势。它是通过输入多帧原始传感器数据,预测周围环境的当前和未来状态。输出的当前状态和未来状态将直接作为运动规划的输入。这种PnP系统可以避免反复抽取同类特征并有效减少系统级联式错误。目前的PnP系统主要分为两种:基于Bounding box的PnP和基于Occupancy flow的PnP。第一种PnP会以多帧的雷达点云作为输入,设计方法同时促进3D检测和轨迹预测的性能。相比于广泛使用的Bounding box方法,基于Occupancy flow的PnP针对鸟瞰图(BEV)下的每一个地块,估计所属空间是否被物体占据,并预测其未来位移情况。由于这里不再明确涉及物体类别,基于Occupancy flow的PnP能缓解长尾物体类别检测困难的问题,可以作为Bounding box的有效补充,显著提升决策和控制模块的输入质量。同时,相比于激光雷达等其他传感器,快速发展且经济实用的视觉感知方案成为了自动驾驶解决方案的重要趋势。基于此,本项工作着眼于研究以视觉为输入的Occupancy flow PnP,提出了新方法TBP-Former,解决了时序BEV特征对齐和时空特征提取问题。通过在nuScenes数据集上进行大量实验,我们的结果表明,我们提出的框架优于目前所有最先进的基于视觉的预测方法。

图1. 输入六个视角的视觉数据,输出当前和未来的空间占据情况。蓝色表示当前被物体占据的位置,浅蓝色代表未来将被物体占据的位置

主要困境与解决思路

然而,以视觉为输入的PnP由于缺乏精确的三维信息,存在两个主要的技术难点:

  • 第一,如何同步不同时刻的Bird's Eye View(BEV)特征。如图2 (a) 所示,由于以视觉为中心的PnP的输入和输出分别为摄像头前视图(Front View, FV)和BEV视图,因此在两个视图之间进行几何变换时必须处理失真的问题。同时,当车辆移动时,图像输入的视图是随时间变化的,因此精确地将视觉特征跨时间映射到一个共享和同步的空间中并非易事。传统方案的做法是在每个时刻分别从前视图提取BEV特征,然后对连续的BEV特征进行刚体转换同步到同一坐标系下。这种做法会不可避免地造成信息的丢失和几何扭曲,称为时序BEV特征对齐问题。为此,我们提出了一种可以同步姿态的BEV编码器,将任意时刻任意位置的输入图像映射到一个固定的BEV特征空间中,实现更好的时空同步。

  • 第二,由于时序图像序列中的信息足够丰富,可以准确地感知环境,所以如何从连续的BEV特征中高效提取时空特征,并预测未来状态也是一个挑战,称为时空特征提取的问题。之前的方法大多利用基于Recurrent Neural Network(RNN) 的方法(如LSTM、GRU等)来学习时空特征,但这些基于RNN的方法很难完整全面地整合历史时空信息并对未来进行预测。因此我们提出了一种基于Swin-Transformer的时空金字塔预测模型,综合提取多尺度BEV特征,预测未来BEV状态。

总结一下,我们的主要贡献如下:

  • 1)为了解决将时序图像序列映射到一个共享和同步的BEV空间中的失真问题和信息缺失问题,我们提出了一种基于Pose-Aware Cross Attention的姿态同步BEV编码器(PoseSync BEV encoder)来提取高质量的时序BEV特征;

  • 2)为了更完整地提取历史时空信息并预测未来状态,我们提出了一种新的Spatial-Temporal Pyramid Transformer(STPT),从连续的BEV特征图中提取多尺度时空特征,并根据精心设计的Future Queries与空间先验相结合来预测未来的BEV状态;

  • 3)基于以上两个模块,我们提出了TBP-Former,一个基于视觉的自动驾驶联合感知和预测框架。TBP-Former在nuScenes数据集基于视觉的预测任务上达到了最先进的性能。大量的实验表明,PoseSync BEV Encoder和Spatial-Temporal Pyramid Transformer都对性能有很大的贡献。由于框架的可解耦性,这两个模块都可以很容易地作为任何基于视觉的BEV预测框架的替代模块。

b9bd8f3aca014539bf0341720ea8ca69.png
图2. 时序BEV特征对齐和时空特征提取问题

方法介绍

我们提出的TBP-Former整体流程如图3所示。以连续的环视相机图像作为输入,TBP-Former首先利用ResNet生成图像空间特征,并使用PoseSync BEV Encoder将图像空间的前视图特征映射到一个共享和同步的BEV空间中。然后利用Spatial-Temporal Pyramid Transformer (STPT) 提取多帧BEV时空特征,并对未来BEV状态进行有序预测。在此过程中,TBP-Former会复用高清地图的解码器头,从当前帧BEV特征生成场景表示作为空间先验来指导预测。最后,预测出的未来BEV状态被馈送到多任务解码器头进行联合感知和预测任务。下面我们重点讲解TBP-Former中的两个重要部分:PoseSync BEV Encoder和Spatial-Temporal Pyramid Transformer。

d9d4c630b9175be7f06eb34c57e46bea.png
图3. 系统框图

PoseSync BEV Encoder的主要功能是在一个共享的BEV空间中提取来自不同时间不同相机拍摄到的图像特征,并且有效缓解刚性变换时失真和信息损失的问题。我们首先用PoseSync BEV Encoder机制如图4(A)所示,将某一时刻的各个相机姿态以及前视图特征作为输入,通过Pose-Aware Cross Attention操作将特征映射到BEV空间。其具体做法为:令为BEV空间下网格的坐标。(注意是我们方法里唯一的BEV空间。)首先预定义可学习参数作为BEV Queries 用作生成对应的BEV特征图,表示在(x,y)这个位置用C维的向量当作Query。然后我们需要构建当前时刻雷达坐标系到某一历史时刻某一相机坐标系的投影关系,使得BEV空间中的坐标能够映射到-t时刻第i个相机的像素坐标。

d5bcaad442e91e104a093daa9ae1bf3d.png

其中z是设置的BEV高度。这步投影操作的具体公式为:

edbe530443328f9e1bdb1e97f19afc48.png

其中T是利用相机内外参和雷达的位姿构建出的旋转矩阵。

按此投影矩阵我们可以找到BEV空间中每个点对应在图像中的位置,将此位置的图像特征用作Key和Value,与BEV Queries进行Attention机制,进而得到最终的BEV特征。

1690436dd276a0423c367b4263fcc2ee.png

其中表示Deformable Attention操作,它允许BEV Queries仅在其感兴趣的区域内与前视图特征进行交互,这些特征是围绕投影计算的参考点进行采样的。

由于三维空间中高度的不同,一个BEV索引可能导致正面图像中多个像素索引。因此,我们对所有可能的高度z求和。为了进一步聚合所有摄像头视图中的BEV特征图,我们只需对所有摄像头提取到的BEV特征取平均值。

da478ad9921c761854bb077a44e4c43a.png
图4. PoseSync BEV Encoder框图

Spatial-Temporal Pyramid Transformer (STPT)的主要功能是更全面地整合历史信息,并预测未来帧的BEV状态。如图5所示,对于左边的Encode阶段,我们利用Swin-Transformer结构来提取特征,并利用4次步长为2的卷积层进行下采样,得到4种不同尺度的特征,每层的特征图为,其中s=0,1,2,3。与上一个模块的思路相似,STPT也设置了可学习参数,表示未来的BEV状态并且用来query生成的多尺度时空特征。我们设置了一组Future Queries ,每个都和最底层的维度相同(8倍降采样)。对每个时刻设置单独的Query可以区分预测的BEV状态随时间的变化。此外我们会复用地图的解码器头(相同的结构和参数,但不包括最后一层线性)来生成高维度特征,以生成关于空间信息的先验。在右边的Decode阶段,我们将Future Queries当作Query,来自Encoder的时空特征作为Key和Value,通过Swin-Transformer结构提取特征。与Encoder阶段类似,我们会用反卷积操作将Future Queries上采样。整个decode过程可以被写为:

755099e9c66e2ac4d7001d52802fef4a.png

其中是被解码出的不同尺度的特征。s=0即为最终预测的未来BEV状态。

ae293cad188e97f3bc279c70e4fbf7bd.png
图5. Spatial-Temporal Pyramid Transformer (STPT)框图

经过PoseSync BEV Encoder和Spatial-Temporal Pyramid Transformer,预测出来的未来的BEV特征图会被馈送到多任务解码器中,以生成用于动态场景理解的各种输出,包括BEV语义分割、实例中心和用于联合感知和预测的Flow等。同时,我们设置了一个额外的地图解码器来预测基本的交通场景元素,包括可行驶区域和车道线等。地图解码器不仅可以为后续的规划和控制模块提供场景信息,还可以作为空间先验加在STPT上。

实验结果

我们使用了nuScenes数据集来验证我们的方法。为了公平比较,我们完全按照FIERY的设定来进行实验,即使用过去一秒的信息和当前帧的信息,来预测未来两秒的状态。对应于基于3帧观测到的图片信息,预测未来4帧BEV状态。我们从感知、预测和可视化三方面对TBP-Former进行了实验验证。

感知结果:表1比较了许多方法在感知(分割)任务上的结果。我们看到,我们的静态模型(没有历史帧信息输入),可以实现44.8和17.2的车辆和行人IoU。随着时间序列的输入,由于提供了辅助信息,性能会进一步提高。

919c076b4dfa8ac34410feff7f9fc7a2.png
表1. nuScenes数据集上的感知效果对比

预测结果:表2比较了TBP-Former和其他联合感知与预测的工作在nuScenes数据集验证集上的预测结果。IoU(Intersection over Union)用来衡量未来的语义分割效果,VPQ (Video Panoptic Quality) 用来衡量未来的实例分割效果。我们展示了在两种设定下的结果:短距离(30m*30m)和长距离(100m*100m)。我们可以看到TBP-Former实现了SOTA的性能,并大大超越了先前的工作。同时,得益于模型的设计,我们有着更快的推理速度。还可以注意到,即使BEVerse有着更高的分辨率,我们的TBP-Former仍然在短距离和长距离的设定上,IoU分别提升了7.3%和8.3%,VPQ分别提升了12.1%和10.8%。

01957d10e57f901a5c63c857ca5b1bbd.png
表2. nuScenes数据集上的预测效果对比

消融实验结果:表3比较了是否有PoseSync BEV Encoder(Sync.)、可学习的Future Queries(SLQ)和空间先验(SPE)。实验1-3使用传统的刚性变换方法来对齐时间BEV特征。SLQ表示使用对未来的每一帧都分别设置Query,而不是使用带有时序位置编码的相同Query。SPE表示在Future Queries中使用地图信息作为先验。表3中的Exp. 1和4, 2和5, 3和6比较了提出的PoseSync BEV Encoder的投影方法和现有的刚性变换方法。我们看到,当其他设置保持不变时,我们所提出的方法总是能获得更好的性能。原因是:(1)基于Deformable Attention的PoseSync BEV Encoder可以保证BEV网格与图像特征的精确对应。(2)我们的投影方法可以缓解同步时序BEV特征时的失真和信息缺失问题。

1fbedaf70a19c2dce5a1b5dcbccdfdd9.png
表3. 我们所提出模块的消融实验

表4比较了不同方法的时序模型。我们保持BEV Encoder和最终的多任务解码器头不变,利用MotionNet、FIERY、BEVerse的时序模型来替代我们的时序模型作为对比。除了上述的IoU和VPQ以外,我们还用视频识别质量(Video Recognition Quality, VRQ)和视频分割质量(Video Segmentation Quality, VSQ)来作为评价指标。我们看到,STPT模型在所有四个指标上都表现得更好。而且我们复现的时序模型实现了比原始论文更高的性能。这进一步验证了我们的PoseSync BEV Encoder的有效性。

8ea2419ae5a6b3da17f4abcf5fdb55a5.png
表4. 时序模型的消融实验

表5展示了不同数据增强的消融实验结果。我们分别实现了图像增强和BEV增强。图像增强包括输入图像的随机缩放、旋转和翻转。BEV增强包括对BEV特征和相应的真值标签的类似操作(旋转、平移等)。我们看到这两种增强方法在单独使用时都提高了性能,引入数据增强策略有利于提高模型的鲁棒性和泛化能力。

2ca563958117cacdff23d79947d89f9b.png
表5. 数据增强的消融实验

可视化结果:图6比较了FIERY、BEVerse和我们的方法基于未来Occupancy和Flow的可视化。不同的车辆被赋予不同的颜色,以作出区分。较深颜色的部分代表当前帧的感知,较浅颜色的部分代表未来帧的预测。可以看到我们的方法感知与预测结果都更加准确,有利于在真实自动驾驶场景中落地。

fe539b02e34623e903eea9a42dbf353b.png
图6. nuScenes数据集上的可视化

总结

本项工作提出了以视觉为中心的联合感知与预测的TBP-Former算法。我们设计了PoseSync BEV Encoder,利用Pose-Aware Cross Attention解决了以往工作在提取时序特征时的失真问题和信息缺失问题。此外,我们提出了一个Spatial-Temporal Pyramid Transformer (STPT) 用于BEV特征提取和BEV状态预测。实验表明,与现有方法相比,TBP-Former显著提高了预测性能。由于我们框架的可解耦性,所提出的两个模块都可以很容易地作为任何基于视觉的BEV预测框架的替代模块。论文中和Github上有更多的可视化结果,欢迎点击上方链接查看。

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

ea628b23bd16555ddc48832ff2726a6d.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

5f602cb0441a83d7b91e5b8f8a0781db.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

921a6fcf77fbdc28f4d2e1bc0f2291cf.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值