HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention

本文链接：https://blog.csdn.net/2301_76289889/article/details/145990506

概要

预测道路的交通参与者的轨迹对自动驾驶系统至关重要。当前主流方法遵循一种静态范式，即通过使用固定时长的历史帧来预测未来的轨迹。这些方法即使在相邻的时间步上也会独立进行预测，这可能导致潜在不稳定性和时间上的不一致性。由于连续的时间步具有大量重叠的历史帧，它们的预测结果应具有内在的相关性，例如重叠的预测轨迹应该保持一致，或者即使不同，也应根据道路情况共享相同的运动目标。基于这一动机，我们在本工作中引入了HPNet，这是一种新颖的动态轨迹预测方法。为了实现稳定且准确的轨迹预测，我们的方法不仅利用包含地图和交通参与者状态的历史帧，还利用历史预测。具体而言，我们新设计了一个历史预测注意力模块，用于自动编码连续预测之间的动态关系。此外，由于使用了历史预测，它还将注意力范围扩展到了当前可见窗口之外。所提出的历史预测注意力模块与交通参与者注意力模块和模式注意力模块一起被进一步整合为三因素分解注意力模块，作为HPNet的核心设计。在Argoverse和INTERACTION数据集上的实验足以表明，HPNet实现了最先进的性能，并生成了准确且稳定的未来轨迹。

介绍

图1。以往方法与我们方法的区别。以往方法（上）将轨迹预测视为一项静态任务，并基于固定长度的历史帧序列来预测未来轨迹，尽管输入数据存在大量重叠，它们仍然在相邻时间步上独立地预测轨迹。相比之下，HPNet（下）将轨迹预测视为一项动态任务。它不仅利用历史帧，还利用历史预测嵌入来预测轨迹。

准确且可靠的交通参与者（如汽车和行人）轨迹预测对于自动驾驶系统的决策和安全性至关重要。然而轨迹预测极具挑战性。一方面，交通参与者的运动不仅受到道路几何形状和规则的影响，还受到周围其他交通参与者的影响。另一方面，由于交通参与者的意图是未知的，这导致未来轨迹存在高度不确定性。

最近，一些研究如Macformer[10]、HiVT[46]和Multipath++[34]，通过精心设计的网络架构实现了显著的成果。这些架构能够无缝融合异构信息，包括交通参与者的历史轨迹、交通参与者之间的交互以及交通参与者与地图的交互。Wayformer[26]进一步探索了融合这些异构信息的统一架构。此外，为了应对未来的不确定性，近期的研究[3, 17, 20, 24, 26–28, 34, 36, 38, 43, 45, 47]开始从单一的轨迹预测转向多模态轨迹预测，因为即使在完全相同的场景下，交通参与者也可能做出不同的决策。基于锚点的方法[3, 17, 36, 43, 45]利用多个候选目标或预定义路径作为锚点，以指示各种潜在的未来轨迹，从而促进多模态轨迹的生成。最近一些模型[24, 26, 34, 38, 47]采用可学习的查询来生成多模态预测，并取得了令人鼓舞的结果。

尽管现有的方法在预测精度上取得了巨大进展，但它们大多将轨迹预测视为一项静态任务，通过固定数量的历史帧来预测未来轨迹。如图1所示，尽管输入数据存在大量重叠，连续的预测本质上是独立的。这种静态的轨迹预测范式可能导致连续预测之间的不稳定性和时间不一致性，这不利于自动驾驶系统做出安全可靠的决策。为了实现更稳定的预测，DCMS[40]提出将轨迹预测建模为一个动态问题。它明确考虑了连续预测之间的相关性，并施加了一个时间一致性约束，要求相邻时间步上预测轨迹的重叠部分必须相同。此外，QCNet[47]引入了一种以查询为中心的编码范式，分别对位置相关特征和位置无关特征进行编码，从而避免了连续预测中的冗余编码。这些初步研究表明，将轨迹预测建模为动态任务是有效且合理的。

这些研究[40, 47]启发我们思考，连续预测之间的内在关系应该更加广泛，而不仅仅是保持一致。例如，重叠部分可能像DCMS[40]中那样保持一致，或者发生轻微变化。甚至在交通参与者通过拥挤的多向交叉路口时，连续预测可能完全不同，但仍然共享相同的运动目标，如后文的图4(b)所示。因此，在本工作中，我们提出了一种新颖的动态轨迹预测方法HPNet。它将连续预测之间的动态关系建模为历史预测注意力的过程。具体来说，HPNet由三个部分组成：时空上下文编码、三因素分解注意力和多模态输出。首先，模式查询聚合时空上下文以形成初步的预测嵌入。随后，三因素分解注意力（包括交通参与者注意力、历史预测注意力和模式注意力）分别建模交通参与者、预测和模式之间的交互，以获得更具信息量的预测嵌入。最后，在最后一个模块中，这些嵌入被解码为多模态未来轨迹。

我们的方法具有两个明显优势：首先，我们的模型建立了连续预测之间的一般性关系，利用历史预测作为参考来提高稳定性并增加准确性。其次，在线推理中，现有的基于静态注意力的方法由于数据集大小有限或计算资源有限，其注意力范围被限制在固定可见历史范围内。相比之下，我们的方法能在不增加计算开销的情况下实现更大可见范围（即更长的注意力），这对于实际应用中的准确性提升是有益的。

方法

图2。HPNet的概述。我们提出的HPNet包含三个组成部分：时空上下文编码、三因素分解注意力和多模态输出。首先，它将交通参与者特征和车道特征与模式查询相结合，生成初始预测嵌入。随后，三因素分解注意力（包括交通参与者注意力、我们提出的历史预测注意力和模式注意力）对这些预测嵌入进行细化。最后，预测嵌入通过一个多层感知机MLP进行解码，以获得预测轨迹。预测轨迹再次输入到这一流程中，以提高预测的精度。

轨迹预测的目标是根据交通参与者的历史状态预测其未来的轨迹。具体来说，给定一个固定长度的历史状态帧序列{f-T+1,f-T+2,…,f0}，其目标是为N个交通参与者预测K种不同模态的轨迹，如下所示：

其中ft={a1∼Nt,M}，a1∼Nt表示场景中所有交通参与者在时间t的特征，M表示包含M个车道段的高精地图，每条轨迹包含接下来F个时间步的未来位置：

其中li,n,k∈R2表示交通参与者n在模态k下第i个时间步的预测位置。同时通常会为每条预测轨迹获得一个概率分数，以表示该轨迹是交通参与者实际将要遵循路径的可能性。

我们提出的HPNet的概述如图2所示。如图所示，我们的模型包含三个部分：时空上下文编码、三因素分解注意力和多模态输出。首先，交通参与者和车道的时空特征与可学习模式查询相结合，生成能够初步预测未来轨迹的预测嵌入。然后，通过三因素分解注意力（包括交通参与者注意力、历史预测注意力和模式注意力）对预测嵌入进行细化。其中交通参与者注意力用于建模交通参与者之间的交互，模式注意力用于建模不同模态（即不同的预测路径）之间的交互，历史预测注意力是我们提出的一个新模块，用于动态建模当前预测与历史预测之间的内在相关性。最后，预测嵌入通过一个多层感知机MLP进行解码，以获得预测轨迹，这些轨迹再次输入到整个流程中，以提高预测的精度。

3-1时空上下文编码

HPNet基于图神经网络GNNs，并采用相对时空位置编码[19, 44, 47, 48]。它将交通参与者和地图的位置无关特征编码为节点嵌入，同时将相对时空位置编码为边嵌入。

编码交通参与者特征。交通参与者特征包括每个时间步上的交通参与者的位置、运动状态和语义属性。时间步上的每个交通参与者被视为图中的一个节点，其特征表示为：

(p^(t,n)_x, p^(t,n)_y)是位置，θ^(t,n)是朝向，(v^(t,n)_x, v^(t,n)_y)是速度，c^(t,n)_a是属性。对于时间步上的每个交通参与者，我们以其位置为原点，朝向为正方向建立局部极坐标系。在这个参考系中，速度(v^(t,n)_x, v^(t,n)_y)表示为(v^(t,n),ϕ^(t,n))，其中v^(t,n)是速度大小，ϕ^(t,n)是速度方向。我们采用两层多层感知机MLP将位置无关特征编码为交通参与者嵌入E^(t,n)_a=MLP(v^(t,n), ϕ^(t,n), c^(t,n)_a)。其中E^(t,n)_a∈R^D，D是编码维度。

编码地图特征。地图特征包括每个车道段的位置、长度和语义属性。车道段被视为图中节点，每个节点包含一组中心线及其属性。中心线中点的位置和朝向用于表示每个车道段的位置和朝向。车道段的长度lm和其属性cm作为节点特征，通过两层MLP编码为地图嵌入Em=MLP(lm,cm)。其中Em∈R^(M×D)，M是车道段数量。类似于LaneGCN [23]，为了捕捉地图的拓扑结构，车道节点基于相邻、前驱和后继关系进行连接。车道节点之间的交互通过自注意力机制完成。

编码相对时空位置。节点之间的相对时空位置被用作边的特征。图中所有节点都使用其局部极坐标系中的特征进行编码，因此边能表示不同局部极坐标系之间的转换关系。边特征可以表示为{de,ϕe,ψe,δe}，其中de表示源节点到目标节点的距离，ϕe表示边在目标节点参考系中的朝向，ψe表示源节点和目标节点之间的相对朝向，δe表示它们之间的时间差。同样，我们采用两层MLP将这些特征编码作为边嵌入Ee=MLP(de,ϕe,ψe,δe)。其中Ee∈R^(Y×D)，Y是边的数量。

时空注意力。时空注意力包含两个并行交叉注意力模块。时间注意力聚合交通参与者的历史嵌入，而空间注意力建模交通参与者与车道的交互。我们在每个时间步上的每个交通参与者的位置分配相同的可学习模式查询，表示为{qt,n,k} t∈[1−T,0], n∈[1,N], k∈[1,K]。每个模式查询作为一个节点，其时空位置与对应交通参与者相同。对于每个模式查询节点，空间注意力在特定的空间半径R1内与车道节点进行交互，时间注意力在指定的时间跨度I1内与交通参与者节点进行交互，边通过与源节点拼接参与这一过程[19, 44, 46–48]：

其中MHA(a, b, c)表示以a为查询，以b为键，以c为值的多头注意力机制，这两个交叉注意力模块的结果随后相加，以生成预测嵌入：

随后，通过公式（5）生成的预测嵌入会被传递到三因素分解注意力模块。三因素分解注意力包括交通参与者注意力、历史预测注意力和模式注意力，允许每个预测嵌入直接或间接地与其他交通参与者、不同时间步以及不同模式的嵌入进行交互。在3-2、3-3和3-4节中，我们将分别介绍交通参与者注意力、历史预测注意力和模式注意力。

3-2交通参与者注意力模块

在交通参与者注意力模块中，通过多头自注意力机制在每个模式和每个时间步上对预测嵌入进行处理，实现交通参与者之间的交互：

其中n′表示相同模式和时间步下，与第n个交通参与者距离R2范围内的所有交通参与者。一方面，交通参与者注意力建模了交通参与者在各自时空上下文中的相互作用。另一方面，它也可以被视为不同交通参与者未来轨迹之间的交互，从而减少潜在的碰撞风险。

3-3历史预测注意力模块

在聚合交通参与者的历史状态、交通参与者与车道的交互以及交通参与者之间的交互之后，以往的方法通常开始预测未来的轨迹。然而我们观察到，当前预测与历史预测通常是相关的，而大多数现有方法忽略了这一点。例如，当一个交通参与者在直线上稳定移动时，连续预测的重叠部分应该几乎相同或变化非常小。当一个交通参与者穿过繁忙的多车道交叉路口时，连续的预测可能差异很大，但仍共享相同的运动目标，如图4（b）所示。我们的实验表明，这种连续预测之间的相关性不仅对预测稳定性至关重要，而且对预测准确性也至关重要。

因此，为了进一步提高轨迹预测的稳定性和准确性，我们设计了这种新颖的历史预测注意力机制，它能通过注意力机制将历史预测纳入当前预测中，建模连续预测之间的动态相关性。具体而言，每个预测嵌入都会在时间跨度I2内，针对每个交通参与者和每个模式，与历史预测嵌入进行自注意力操作：

此时，我们使用预测嵌入而非最终的历史预测轨迹来建模动态关系，因为后者会将训练过程从并行执行转变为串行执行，从而大幅增加训练所需的时间。

除了提高预测的准确性和稳定性之外，公式（7）中的这种注意力机制还可以吸收超出当前可见窗口的更长历史信息，即扩展了注意力范围。具体来说，如果没有历史预测注意力，PHPt 的观测窗口仅限于区间[t−I1,t]，因为它仅使用了之前的I1帧，时间跨度被限制为I1。相比之下，如果I2=I1，历史预测注意力的观测窗口长度是两倍，即[t−I1−I1,t]。详细来说，当前预测使用了历史的I1个预测嵌入，因此关于预测嵌入的观测窗口是[t−I1,t]。然而，最远时间步t−I1上的预测嵌入实际上已经吸收了之前[t−I1−I1,t−I1]帧的注意力信息。因此，历史预测注意力的实际观测窗口是这两个区间的总和，即[t−I1−I1,t]。在一般情况下I2=I1，历史预测注意力的实际观测窗口是[t−I2−I1,t]，这也比大多数现有方法的观测窗口[t−I1,t]更长。历史预测注意力的更长注意力范围可以在不增加额外计算成本的情况下，为更好的轨迹预测提供更有益的信息。

3-4模式注意力模块

在完成历史预测注意力之后，针对每个交通参与者和每个时间步的预测嵌入，进一步应用自注意力机制以跨越不同模式进行处理，建模不同未来轨迹之间的模式-模式交互，从而增强多模态输出：

在公式（8）之后，三因素分解注意力得以完成，从而生成了增强的预测嵌入。三因素分解注意力重复执行N_attn=2次，以便所有预测嵌入能充分进行交互，从而实现更准确的预测。

3-5多模态输出

最后，所有预测嵌入通过一个两层的MLP进行解码，以获得多个未来的轨迹位置：

为了进一步增强输出轨迹，参考QCNet [47]，将L^1_t,n,k作为整个流程的输入，以进一步优化预测轨迹。具体而言，L^1_t,n,k被视为轨迹提议，并通过另一个两层MLP编码为模式查询。这些编码后的模式查询取代了可学习的模式查询，作为时空注意力的输入，重新聚合时空上下文，并再次执行三因素分解注意力。这一优化过程生成了轨迹优化ΔLt,n,k和概率分数π`t,n,k。

随后，通过将候选轨迹与优化轨迹相加，得到最终的预测轨迹：

3-6训练目标

在现有研究[8, 11, 24, 26, 38, 46, 47]的基础上，我们采用“胜者通吃”[21]策略来优化我们的模型。对于边缘预测，要优化的第k_(t,n)种模式根据预测轨迹{L^1_(t,n,k)} k∈[1,K]与真实轨迹G_t,n={g_(t+1,n), g_(t+2,n), ..., g_(t+F,n)}之间的最小终点位移来确定：

随后回归损失函数包含两个Huber损失，分别用于候选轨迹和优化精炼后的最终轨迹：

此外，概率分数通过交叉熵损失函数进行优化：

总体而言，整个模型的总损失函数如下所示：

对于联合预测，我们将同一模式下所有智能体的预测视为一个未来预测方向，联合终点位移决定了要优化的模式。关于联合预测训练目标的详细解释，请参阅补充材料。

实验

4-1实验设置

数据集。我们在Argoverse[4]和INTERACTION[42]两个数据集上进行了实验，数据集均基于真实世界的驾驶场景，提供了高清地图和详细的运动信息，采样频率为10Hz。在Argoverse数据集上，我们评估了HPNet在边缘轨迹预测方面的能力。而在以复杂驾驶场景和详细多智能体交互闻名的INTERACTION数据集上，我们考察了HPNet在联合预测方面的有效性。

评估指标。在评估中，我们采用了官方的轨迹预测指标，包括最小平均位移误差minADE、最小最终位移误差minFDE、漏检率MR以及Argoverse的Brier最小最终位移误差b-minFDE。minADE衡量预测轨迹点与实际轨迹点之间的平均ℓ2范数距离，而minFDE则检查轨迹终点的ℓ2范数距离；MR评估预测结果偏离实际终点超过2.0米的情况，以衡量模型的可靠性；brier-minFDE则通过引入概率部分(1 - π̂)^2扩展minFDE，从而提供模型对最佳预测置信度的见解。而对于INTERACTION数据集，我们使用minJointADE和minJointFDE指标来评估联合轨迹预测性能。minJointADE评估所有智能体预测轨迹和实际轨迹之间的平均ℓ2范数距离，而minJointFDE则关注所有智能体在最终时间步的ℓ2范数距离。为探索模型在捕捉多模态输出方面的能力，我们在边缘预测和联合预测中均将K设置为6。

4-2与目前最先进方法的比较

表1。HPNet与Argoverse测试集上的最新方法的比较，其中b-minFDE是官方排名指标。对于每个指标，最佳结果用粗体表示，次佳结果用下划线表示。

表2. HPNet与INTERACTION测试集上的最新方法的比较。对于每个指标，最佳结果用粗体表示，次佳结果用下划线表示。

Argoverse上的结果。表1展示了我们方法在Argoverse边缘轨迹预测任务的结果。我们的HPNet在所有单一模型中所有指标上均取得了最佳结果。与排名第二的GANet相比，HPNet在b-minFDE上提升了0.052，在minFDE上提升了0.062，在minADE上提升了0.045。此外，参考文献[34, 38, 40, 47]，HPNet还在模型集成的设置中进行了进一步比较。可以看出，我们的HPNet在官方排名指标上也表现最佳。与单一模型相比，集成后的HPNet在minFDE上仅降低了0.013。这主要是因为HPNet的预测结果更加稳定，因此集成所带来的提升小于其他方法。总体而言，我们的HPNet取得了最先进的性能，验证了其优越性。

INTERACTION上的结果。表2展示了我们方法在INTERACTION多智能体轨迹预测任务上的结果。我们在该基准测试中取得了最先进的性能，与排名第二的FJMP相比，minJointFDE提升了0.099，minJointADE提升了0.020。这表明我们的HPNet可以简单有效地用于联合轨迹预测。

4-3消融研究

表3。三重分解注意力的消融研究。实验在Argoverse验证集上进行。

图3。在Argoverse验证集上，我们的HPNet与未使用历史预测注意力的基线模型间的预测精度（b-minFDE↓）和稳定性（累积ADE↓）的比较。

图4。在Argoverse验证集上的定性结果。基线模型（a）交替预测一个运动目标（如左转）和两个运动目标（如左转和直行）。相比之下，HPNet（b）始终保持一致且可靠地预测相同的运动目标（如左转）。车道、历史轨迹、真实轨迹和预测轨迹分别用灰、绿、红和蓝表示。

图5。HPNet（下）和基线模型（上）的预测结果。

我们首先对三重分解注意力进行了消融研究，以分析智能体注意力、历史预测注意力和模式注意力在我们提出的HPNet中的重要性。接着，我们探讨了历史预测注意力对预测精度和稳定性的影响。最后，我们考察了历史预测注意力对反应及时性的影响。

三重分解注意力的组件研究。如表3所示，包含所有组件的模型在验证集上取得了1.506的b-minFDE，这是验证集上的最佳结果。若移除三重分解注意力模块，b-minFDE性能下降了0.326，这表明三重分解注意力模块在整个模型架构的重要性。如果分别移除智能体注意力、历史预测注意力和模式注意力，b-minFDE性能分别下降了0.205、0.021和0.025。这表明所有三个注意力模块都具有有效性，其中智能体注意力在代理与其周围环境之间的交互中具有最重要的影响，并且对于预测是不可或缺的。此外，我们提出的历史预测注意力也发挥了重要作用，在四个指标上都有显著提升，这清楚地说明了考虑连续预测之间关系的必要性。

历史预测注意力对精度和稳定性的影响。我们提出的历史预测注意力旨在通过考虑当前预测与历史预测之间的关系来提高轨迹预测的精度和稳定性。为了验证这一预期是否实现，我们在两个模型之间进行了对比实验：带有历史预测注意力的HPNet和没有历史预测注意力的基线模型。预测跨越10个时间步，范围从20到30，每个预测使用20个时间步的可见历史帧窗口和等长的历史预测窗口。预测的精度通过b-minFDE指标进行量化，而稳定性则通过当前和前一时间步匹配轨迹对的重叠段的累积ADE来评估，匹配轨迹对是通过匈牙利匹配算法获得的。

如图3（a）所示，在所有预测时间步中，HPNet的b-minFDE性能均优于基线模型。这一优越性能表明历史预测注意力确实提高了轨迹预测的精度。此外，还观察到我们的HPNet和基线模型的精度都随着时间轴的推移而下降，这主要因为后来时间步中出现了新的智能体，而这些智能体在最初20帧中并不存在。即便如此，HPNet相对于基线的相对提升（即橙色虚线）随着时间的推移而增大。当时间步变长时，一个显著差异是，正如在第3.3节中分析的那样，HPNet的实际可见历史窗口超过了20个时间步，而基线模型的历史窗口始终固定为20个时间步。因此，这种随时间显著增大的相对提升清楚地验证了历史预测注意力较长注意力窗口的好处。

如图3（b）所示，在所有预测时间步中，HPNet在连续时间步之间的累积ADE约为2.25，而基线模型的累积ADE约为2.90，明显更大。这表明历史预测注意力确实使预测轨迹更加稳定。我们在图4中展示了智能体在交叉路口选择左转的例子，它使比较更加直观。然而，由于智能体在中间时刻的暂停，基线模型可能会交替预测一个运动目标（例如左转）和两个运动目标（例如左转和直行）。相比之下，HPNet始终一致且可靠地预测了相同的运动目标（即左转）。同时不同于DCMS[40]，HPNet在复杂路况下的连续预测只共享相同运动目标，而没有强制重叠的路点。这些稳定的预测结果使得后续模块能够产生稳定且时间一致的安全驾驶决策。更多定性结果可以在补充材料中找到。

历史预测注意力对反应及时性的影响。尽管历史预测注意力通过利用历史预测增强了预测的稳定性，但它并未损害反应及时性。这主要得益于注意力机制。当发生突变（例如图5中的突然右转）时，当前预测嵌入与历史预测嵌入之间的相似性降低，导致历史预测的权重减少。因此，过去预测对当前时刻的影响会动态减弱。图5展示了一个定性例子，其中在交叉路口观察到一个智能体在三个连续时刻的行为。当智能体没有明确意图时，HPNet稳定且准确地预测了左转或右转的可能性，优于基线模型。在突然右转（最终时刻）时，HPNet迅速调整为仅预测右转，与基线模型相比没有延迟。

结论

本文中，我们提出了一种新颖的动态轨迹预测方法HPNet。我们设计了一个历史预测注意力模块，用于建模连续预测之间的动态关系。该模块利用历史预测嵌入来指导当前预测，从而使预测轨迹更加准确和稳定。在Argoverse和INTERACTION数据集上的实验能证明，我们提出的HPNet达到了最先进的性能水平，并且证明了历史预测注意力能够有效提高预测的准确性和稳定性。