BEVGPT展示自动驾驶『全知视角』，预测决策规划三合一！

最新推荐文章于 2025-04-24 10:51:28 发布

自动驾驶之心

最新推荐文章于 2025-04-24 10:51:28 发布

阅读量220

点赞数

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247621267&idx=3&sn=4d5f98712768801376a1056ad4b21915&chksm=cf4bf4301bae741d3ad054b497f45df15d84357d2db1545706a43b50d522735567bcd6f7aa3a&scene=126&sessionid=0

版权

作者 | Pengqin Wang 编辑 | 深蓝AI

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

本文只做学术分享，如有侵权，联系删文

预测、决策和运动规划对于自动驾驶至关重要。在大多数传统算法架构中，它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。然而，我们认为理想的算法是将它们整合到一个综合框架中，且这种整合过程不应受到复杂的输入表示（即输入解耦）和冗余框架设计的困扰。为了解决上述问题，我们重新思考了自动驾驶任务中各个模块的必要性，并将所需的模块纳入到极简的自动驾驶框架中。我们提出了BEVGPT，一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。该模型以鸟瞰图像（BEV）作为唯一输入源，并根据周围的交通场景做出驾驶决策。最后通过基于优化的运动规划方法来保证驾驶轨迹的可行性和平滑性。

▲图1｜BEVGPT整体框架©️【深蓝AI】

如图所示，BEVGPT采用两阶段训练过程。首先，我们使用大量自动驾驶数据来训练生成式大模型。随后，使用自动驾驶仿真模拟器通过在线学习对模型进行微调。具体来说，预训练阶段的目标是学习驾驶场景预测和决策，即自动驾驶任务中的BEV生成和自车轨迹预测。该模型能够输出未来4秒内的决策轨迹，并在长达6秒内预测未来驾驶场景。接下来是在线微调阶段，通过在线学习的方式实现模型微调，从而保证符合动力学的运动规划和更为精确的BEV预测。在微调阶段，运动规划器被设计为自动驾驶车辆生成平滑且可行的轨迹。

■2.1 框架设计

我们从人类驾驶员的角度重新评估每个模块的必要性，以设计自动驾驶系统框架。首先，人类驾驶员对环境地图有先验的知识，比如在使用导航软件时，每条道路的结构和路口位置都比较明显。其次，人类驾驶员并不会显示地追踪周围的其他车辆，并预测它们的未来轨迹。相反，他们更关注的是预测的自车轨迹是否会被其他车辆所占据。然后，他们会做出相应地驾驶决策。基于上述思考，我们设计了一个极简的自动驾驶框架，即包括决策，运动规划和驾驶场景预测，而把目标跟踪以及他车运动预测模块去掉了。在该框架中，决策输出的是自车未来T=4秒内的位置，在motion planner进一步处理后生成一个符合动力学和平滑的轨迹。考虑到静态环境信息可以从高清地图轻松获取，我们更加关注包括车辆和行人在内的动态物体的精确预测。驾驶场景预测通过环境地图和动态物体预测的组合获得，如下图所示。

▲图2｜驾驶场景预测©️【深蓝AI】

■2.2 轨迹表示

我们采用分段多项式轨迹来表示我们的微分平坦输出，即和。为了在后续的motion planning模块中minimum Jerk，我们选择五次多项式表示。假设轨迹总共由段组成。在这种情况下，便可以表示为下面的多项式：

这里的表示轨迹的段数，每段具有相同的时间间隔。

■2.3 运动规划

在我们的轨迹规划问题中，自车的初始状态和末状态已知。同时，决策模块的输出应当被包含在未来的轨迹中。另外，分段多项式轨迹的连续性也需要得到保证。因此，我们的运动规划问题被表达为了如下的minimum Jerk问题：

在这里，我们将自车的初始状态和最终状态考虑在内，同时确保了两个相邻轨迹段之间的连续性和光滑性，并且考虑了最大速度和最大加速度的限制，以确保动力学的可行性。

■3.1 数据集

我们采用了Lyft Level 5 Dataset，这是一个由Houston等人于2021年提出的自动驾驶数据集，包含了超过1000个小时的驾驶数据，采集跨度4个月，采集车辆是由20辆车组成的车队。关于数据处理，我们从数据集中提取车辆姿态、语义BEV图像和静态环境地图图像。去除持续时间短于24秒（即240帧，时间间隔秒）的驾驶情景。然后将自车的未来目标位置作为决策训练的label。我们将每帧的车辆位置、当前BEV图像、下一帧BEV图像和下一帧环境地图图像记录下来作为训练数据集。

■3.2 模型架构

GPT体系结构在自然语言处理（NLP）领域取得了很大的进展，它通过添加因果自关注掩码来修改变压器体系结构，从而自动回归生成预测tokens。由于其强大的理解和泛化能力，我们采用GPT架构来处理复杂的自动驾驶任务和各种场景。我们的超参数如下表所示。

▲表1｜BEVGPT超参数©️【深蓝AI】

■3.3 预训练

在预训练阶段，BEVGPT进行了20个epochs的训练。为了提高模型的决策能力和预测能力，这里使用均方误差（MSE）作为Loss。

这里我们采用三角函数来平衡预测和决策的loss。

■3.4 在线微调

我们使用的是Woven Planet L5Kit进行自动驾驶仿真，以微调预训练模型。BEV输入模型后，输出未来时间间隔内的轨迹点。紧接着motion planner根据决策输出生成动态可行的轨迹，而后得到BEV的预测。回看上面的loss公式，模型要fine-tuning，需要地图的信息，这里我们开发了一种经验光栅化器（experience rasterizer），以帮助模型获得仿真驾驶场景的静态信息。这里的出发点是一旦知道静态全局地图、自车的初始世界坐标和世界坐标与光栅坐标之间的转换，就可以将所有车道和交叉口轻松映射到光栅化的BEV图像中。仿真器经过时间间隔的仿真后，就可以获得接下来BEV图像的真实数据。这部分的loss如下：

因为这里仿真器是按照预测的轨迹进行走的，所以轨迹那项的loss是0。我们使用Woven Planet L5Kit模拟器进行在线微调，以适应运动规划和精确的BEV生成。

我们采用以下指标来评估的模型的决策能力和运动规划能力：

●最终位移误差指标（FDE），指的是最终预测位置与参考位置之间的距离。

●平均位移误差指标（ADE），指的是时刻t之前所有预测位置与参考位置的均方误差。

●最终距离参考轨迹的距离指标（FDR），指的是时刻t预测位置与参考轨迹中最近点的距离。

●平均距离参考轨迹的距离指标（ADR），指的是时刻之前所有预测位置与参考轨迹中其最近位置的均方误差。

●L2误差（L2），在仿真过程中执行的轨迹和日志记录中的真实位置之间的均方误差。

●碰撞率（CR），它指的是模拟持续时间t内发生碰撞帧与全部帧的比例。

●越野率（OR），它指的是驶离道路帧数与全部帧的比例。判断指标定义为参考轨迹与自车之间的距离大于2米。

评价结果如下表所示，结果显示，我们提出的BEVGPT在决策和规划任务中优于许多现有的方案。

未来我们将在极端情况下测试所提出方法的鲁棒性，并进一步改进框架。未来研究的一个有潜力的方向是提高BEVGPT模型的实时性能，将其部署在自动驾驶汽车上。我们的目标是带来一个更安全、更可靠、更高效的自动驾驶框架。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频