端到端论文阅读
1. GraphAD: Interaction Scene Graph for End-to-end Autonomous Driving(交互场景图)
**挑战:**如何有效地模拟和理解端到端的自动驾驶算法中交通参与者之间的交互
**方法:**GraphAD算法引入交互场景图(Interaction Scene Graph,简称ISG)
ISG将交通参与者和道路元素作为图中的节点,并通过边来表示它们之间的交互关系,从而构建了一个反映交通场景动态的图模型。
交互场景图ISG分为动态场景图(Dynamic Scene Graph,DSG)和静态场景图(Static Scene Graph,SSG),分别模拟了交通参与者之间的交互和车辆与道路元素之间的关系。该方法同时兼顾交通场景中的动态变化和静态结构,为系统提供更全面的信息。
优点:显著提升计算效率
问题:现有端到端自动驾驶的工作依赖于注意力机制来处理异构交互,不能捕捉几何先验,且是计算密集型的。
Method
-
时空场景表示
-
结构化元素学习
利用TrackFormer和MapFormer来预测动静态元素
TrackFormer:执行端到端的3D目标检测和跟踪
MapFormer:学习局部地图的矢量化表示。为了充分获取地图信息,对车道中心线、车道分隔线、道路边界和人行横道四种元素进行建模
-
交互场景图
3.1首先,所有动态和静态元素都被公式化为图形节点表示,包括显式几何和隐式特征。
3.2其次,基于强几何先验构造交互场景图;
3.3 第三,基于已建立的图边更新图节点特征,并对其进行进一步处理以更新几何结构。
对于以结构化格式提取的驾驶实例,包括交通代理和地图元素,关键的挑战在于网络如何感知异构交互。这些相互作用,包括动态代理之间的驾驶游戏,或者简单的中心线跟随启发式,对于预测周围环境的未来和做出驾驶决策非常重要。为此,我们构建了交互场景图来捕获这些异构交互。作为一个迭代过程,交互场景图分为三个步骤。首先,所有动态和静态元素都被公式化为图形节点表示,包括显式几何和隐式特征。其次,基于强几何先验构造交互场景图;第三,基于已建立的图边更新图节点特征,并对其进行进一步处理以更新几何结构。
以下各段阐述了详细的提法。
图节点表示。交互场景图是在交通代理和地图元素的结构化节点上构建的。每个图节点都被设计为包含显式几何和隐式特征。请注意,ego-vehicle被视为参与基于图的交互的交通代理之一。
具体地说,交通代理的图节点,即动态图节点,被组织成一个集合P d = {pd1,…, pnd},其中Nd为动态图节点数。pdi = (xdi, f di)表示以其轨迹提议xdi∈RMd×2为BEV坐标的节点表示,其节点特征f di∈RCg为Cg通道,其中Md为轨迹预测的时间范围。轨迹建议是前一层的轨迹预测。对于第一层,使用k-means的聚类结果。隐式节点特征计算为先前节点特征、来自TrackFormer的查询、轨迹建议的嵌入和可学习意图嵌入的组合,如下[12]。为了统一表述,我们将同一agent的不同模态视为不同的动态图节点。
类似地,地图元素的图节点,即静态图节点,被组织为另一个集合P s = {ps1,…, psNs},其中Ns为静态图节点数,psi = (xsi, fsi)用一系列BEV坐标xsi∈RMs×2(含m个点)及其节点特征fsi∈RCg(含Cg个通道)表示一个映射元素。来自MapFormer的结构化预测,包括BEV坐标和输出查询特征,直接用作静态图节点。由于驾驶场景中的地图元素通常作为恒定的环境约束,其节点特征在迭代层中不会更新。
图连接构造。为了捕获所有图节点之间的异构交互,交互场景图由动态场景图(DSG)和静态场景图(SSG)组成。将交通agent作为动态图节点,将动态场景图表示为Gd = (P d, Ed),旨在对这些agent之间的驾驶博弈进行建模。静态场景图通过结合动态和静态图形节点,表示为Gs = (P d, P s, Es),其重点是为动态代理提供适当的地图信息。对于DSG和SSG,我们遵循相同的高级哲学来计算边缘连接。具体来说,我们计算图节点之间的成对距离,并将每个节点与其K个最近的邻居连接起来。尽管公式简单明了,但成对距离函数的设计选择仍未得到充分探索。
现有的基于图的方法[14,37]通常利用特征空间或坐标空间中的成对距离。然而,现有的方法不能很好地处理构建的场景图中具有动态代理和地图元素的异构和进化相互作用。为此,我们提出利用基于轨迹建议的几何距离来度量图节点之间的相关性。在动态场景图中,两个动态图节点之间的距离Hd(pdi, pdj)被计算为每次它们的轨迹建议之间的最小距离,如式(1)所示:
其中xdi (t)为时刻t预测的未来位置。在静态场景图中,动态节点与静态节点之间的距离Hs(pdi, psj)作为动态轨迹建议与静态地图坐标之间的最小距离计算,如式(2)所示:
其中xdi (t)为预测的未来时刻t的位置,xsj(k)为预测的地图元素的第k个坐标点。当计算成对距离时,选择距离最小的K个最近的图节点作为图邻居。
图特征聚合。由于已经建立了交互连接,最后一部分是通过聚合其连接的邻居的信息来细化节点特征。提出了一种简单有效的交互场景图特征聚合方法。具体来说,每个相邻节点的特征与目标节点连接,然后由多层感知器(MLP)进行处理。最后,采用置换不变最大池化方法将处理后的邻居特征聚合到目标节点。
此外,动态场景图和静态场景图共享相同的图形特征聚合方法。在每个迭代层结束时,利用动态agent更新后的特征来预测其多模态轨迹,包括概率得分和每个模态的轨迹点。
利用预测的轨迹点将几何节点特征更新到下一迭代层。
3.4规划头
规划头的输入信息包括高级驾驶命令、自我状态特征以及从交互场景图中处理的自我查询。将这三组特征连接起来,并通过简单的MLP进行处理,以获得最终的规划预测。
Ego-status特性。自我状态信息主要包括速度、加速度和角速度,对开环规划性能有重要影响。因此,我们使用一个小型的多层感知器(MLP)将自我状态信息与自我车辆的历史轨迹一起编码为自我状态特征。
Occupancy-based Post-optimization。为了进一步避免与其他道路智能体的碰撞,确保驾驶安全,我们遵循UniAD[12]的实现来训练占位头,占位头的预测可用于对预测的规划轨迹进行后优化。
补充信息:
Agent:
指代自动驾驶车辆本身,也就是需要被控制和驾驶的对象。
Agent会根据当前状态和环境信息,做出决策并采取相应的动作,完成自动驾驶任务。
Agent的状态包括位置、速度、加速度等车辆运动学参数,以及内部状态如能量、温度等。
Lane:
指代道路上的行车道,是Agent需要遵循的行驶轨道。
Lane信息包括车道线的位置、宽度、行驶方向等,是Agent规划行驶路径的重要依据。
准确的车道检测和跟踪是端到端自动驾驶系统的关键,确保Agent始终保持在正确的车道上行驶。
综合来看,Agent代表着自动驾驶系统的"驾驶员",需要根据环境和车辆状态做出实时决策和控制;而Lane则是Agent需要遵循的行驶轨迹,是自动驾驶系统的基本参考。两者的交互和协调是实现端到端自动驾驶的核心内容。
Motion Head:
负责将环境感知和车辆状态等信息转换为车辆的运动命令。
它使用机器学习模型,根据输入数据预测车辆应该如何移动,包括速度、方向、加速度等。
Motion Head本质上是一个车辆控制器,将高层决策转化为可以直接执行的底层动作命令。
Planning Head:
负责根据环境感知、目标位置等信息,规划出安全、合理的行驶路径。
它使用规划算法来生成最优的行车轨迹,考虑避障、车道保持、交通规则等因素。
Planning Head属于决策层,为Motion Head提供高层次的运动目标和约束条件。
总的来说,Motion Head和Planning Head协同工作,前者负责底层的执行动作,后者负责高层次的决策规划,共同实现端到端的自动驾驶功能。这种分工有助于提高系统的鲁棒性和可解释性。
评价指标:
端到端预测精度(EPA),
平均位移误差(ADE),
最终位移误差(FDE)和缺失率(MR)。
在规划评价中,通常使用位移误差(DE, L2距离)和碰撞率(CR)来评价规划性能,其中碰撞率被认为是主要指标。