Social-Implicit 文章翻译《轨迹预测》

囇殇

于 2024-03-26 17:24:33 发布

阅读量815

点赞数 22

分类专栏：论文文章标签：人工智能自动驾驶

本文链接：https://blog.csdn.net/qq_43647582/article/details/137052318

版权

论文专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

ECCV 2022 Social-Implicit_ Rethinking Trajectory Prediction Evaluation and The Effectiveness of Implicit MLE
1 引言
2 文献综述
- 2.1 轨迹预测模型
- 2.2 轨迹预测指标
3 平均马氏距离(AMD)
4 平均最大特征值(AMV)
5 轨迹条件隐式最大似然估计(IMLE)机制
7 Social-Implicit模型
7 实验分析
7.4 Social-Zones消融
- 7.5 定性结果
附录:
- 确定性模型评估

ECCV 2022 Social-Implicit_ Rethinking Trajectory Prediction Evaluation and The Effectiveness of Implicit MLE

原文：https://arxiv.org/abs/2203.03057
代码：https://github.com/abduallahmohamed/Social-Implicit

最佳 N (BoN) 平均位移误差 (ADE)/最终位移误差 (FDE) 是评估轨迹预测模型最常用的指标。然而，BoN 并没有量化整个生成的样本，导致模型的预测质量和性能不完整。我们提出了一种新的度量，平均马氏距离 (AMD) 来解决这个问题。AMD 是一个度量，它量化了整个生成的样本与Ground-truth的接近程度。我们还引入了量化预测整体传播的平均最大特征值 (AMV) 度量。这些指标通过表明 ADE/FDE 对分布变化不敏感来凭经验验证，与 AMD/AMV 指标不同，准确度有偏差意义。我们引入了隐式最大似然估计 (IMLE) 的使用作为传统生成模型的替代品来训练我们的模型 Social-Implicit。IMLE 训练机制与 AMD/AMV 目标一致，该目标预测与紧密传播接近地面实况的轨迹。Social-Implicit 是一个内存高效的深度模型，只有 5.8K 参数，实时运行约 580Hz，并取得了有竞争力的结果。

1 引言

轨迹预测是自动驾驶[6,18,5,41,34]、增强现实[20,40]和机器人[21,3]等多个应用的重要组成部分。通常，解决这个问题需要一个生成模型来预测未来代理的轨迹。尽管有很多深度模型和设计架构来解决这个问题，但所使用的评估方法受到质疑。通常，两个指标用于评估轨迹预测模型。第一个是平均位移误差(ADE)[29]，它是预测和地面真实轨迹之间的平均L2距离。较低的 ADE 值意味着整体预测轨迹接近地面实况。另一个指标是最终位移误差 (FDE) [1]，它是两个最终预测位置和地面实况位置之间的 L2 距离。换句话说，它描述了预测的代理是否达到其最后一个目标。此外，FDE 越低，模型在预测期间不会累积错误方面越好。在使用基于循环的架构的先前工作中注意到累积错误的问题，从而导致更高的 FDE。先前的工作引入了基于 CNN 的完整架构 [27] 的想法来解决这种错误累积行为。然而，这种 ADE/FDE 指标仍然不适合生成模型。生成模型预测未来轨迹的多个样本，隐式形成预测分布。这种生成行为适用于问题，因为代理或行人的运动可以是具有可能未来轨迹的多模态。为了在生成设置中使用 ADE/FDE，[1,9] 的工作引入了最佳 N (BoN) 的概念。BoN 技术从 N 个样本中选择最接近地面实况的样本，并计算其上的 ADE/FDE 度量。这有一个主要问题，即忽略生成的样本集。模型可能会生成一个异常值样本，该样本幸运地接近Ground-truth，而其他样本则远离Ground-truth。这种方法在实际应用中也失败了，因为预测的评估缺乏。一些重要的组件，如运动规划和避碰，需要对预测进行完整的视图。我们注意到最近的模型[36,43,26,23]是基于ADE/FDE度量的最先进模型[36,43,26,23]在ETH[29]和UCY[16]数据集上仅相差1cm ADE和几厘米FDE，这是该领域最常用的数据集之一。以前的 SOTA 模型和下一个模型之间的 1cm 差异是如此微妙和微小，以至于它可以是注释错误或异常值采样。因此，需要一个新的指标来评估整个预测样本，并具有整个生成分布是关于Ground-truth的意义。此外，需要量化生成样本的不确定性，以了解模型的置信度，这是现实应用中需要的。为此，我们引入了马氏距离 [24] 作为该领域的指标。我们引入了两个指标，即平均马氏距离 (AMD)，它评估生成的分布相对于Ground-truth的接近程度，以及评估预测置信度的平均最大特征值 (AMV)。AMD 量化了地面实况点在标准偏差单元意义上与预测分布的接近程度。此外，AMD 与 χ2 分布连接，帮助我们确定当生成的分布自由度已知时预测的置信度。AMV 取决于预测分布协方差矩阵的特征值的最大幅度。它量化了预测的传播。因此，我们可以通过使用它来判断模型是否比另一个模型更有信心。因此，我们的目标是实现一个模型，该模型生成一个接近ground truth的分布，并在ground truth周围有一个小的样本分布。我们的目标是重新思考用于训练运动预测模型的生成模型的性质。我们可以将使用的生成技术分为参数和非参数技术。参数使用最大似然估计 (MLE) 将预测的轨迹建模为高斯或高斯混合模型 (GMM)。生成对抗网络(GANs)[8]是非参数分布的例子。这些方法学习观察到的轨迹的分布，以生成未来的轨迹。然而，轨迹预测模型的主要目标是生成的样本本身。MLE 需要大量样本才能收敛，这是我们在实践中没有的东西。虽然 GAN 依赖于鉴别器的设计，VAE 需要优化证据下界 (ELBO)。因此，我们需要一种生成方法，该方法只关注生成的样本，并且没有额外的麻烦。在这项工作中，我们表明隐式最大似然估计 (IMLE) 技术是这些方法的有效替代方案。IMLE 直接关注预测的轨迹，简化了优化函数。通过使用 IMLE 来训练我们的引入的模型 Social-Implicit，与之前的工作相比，预测的轨迹在质量和准确性方面有所提高。Social-Implicit 是一个内存高效的深度模型，只有 5.8K 参数几乎比最接近的 SOTA 小 55 倍，并且实时运行速度比最接近的 SOTA 快 8.5 倍。

2 文献综述

2.1 轨迹预测模型

最近的工作提出了各种模型来预测未来轨迹。根据它们的输出格式，它们可以大致分为两类。将未来显式建模为参数分布，或者将未来隐式建模为非参数分布。在第一类中，方法明确地将未来建模为连续或离散分布 [1,27,32,4,36,38,5,19,44,15,31,42,43]。例如，S-LSTM [1] 和 S-STGCNN [27] 使用高斯分布来模拟最大似然估计 (MLE) 训练的未来轨迹。高斯分布是单模的，不能捕捉到未来的多模态。为了解决这个问题，PRECOG[32]、Trajectron++[36]、ExpertTraj[43]和AgentFormer[42]学习了一个潜在的行为分布，它可以是离散的[36,43]或连续的[32,42]，来表示代理的多模态意图。在这些作品中，预测的高斯分布是根据采样的潜在意图生成的。这种方法通常基于条件 VAE [37]。除了像MTP[5]和LaneGCN[19]这样的高斯方法这样的连续分布外，使用离散分布来表示未来。这些方法预测固定数量的确定性轨迹作为未来的候选轨迹，并使用分类分布对其可能性进行建模。在第二类中，一些方法以隐式方式对未来的分布进行建模。例如，S-GAN[9]、SoPhie[35]、S-BiGAT[13]和DiversityGAN[10]遵循条件GAN[7]架构。他们不是生成分布作为模型输出，而是预测以随机采样噪声为条件的确定性轨迹，并通过对抗性损失机制进行训练。我们提出的方法 SocialImplicit 通过使用 IMLE [17] 对其进行隐式建模，避免了 GAN 训练机制中的鉴别器等其他麻烦。

2.2 轨迹预测指标

大多数轨迹预测方法都是通过度量平均位移误差(ADE)[29]或最终位移误差(FDE)[1]来评估的。这两个指标基于预测和地面实况轨迹之间的整个时间范围 (ADE) 或最后一个时间步 (FDE) 的 L2 距离。当模型生成分布作为输出时，应用 Best-of-N 技巧 [9] 仅从 N 个采样预测评估最佳轨迹。平均 ADE/FDE 也可用于评估预测，它主要适用于单模态预测，当预测接近高斯分布时。在多模态中，当轨迹出现左转/右转时，以 ADE/FDE 作为评价指标有失准确。评估分布质量的另一种方法是核密度估计 (KDE)，首先在 [12] 中使用。KDE 拟合来自预测样本的基于内核的分布，并估计地面实况的负对数似然作为评估分数。Quehl等人[30]提出了一种综合度量，它是不同相似性度量的加权和，以缓解度量偏差。但是他们的指标仅适用于确定性模型。我们提出了两个新的指标 Average Mahalanobis Distance (AMD) 和 Average Maximum Eigenvalue (AMV)，它们是 BoN ADE/FDE 在评估预测方面的更好替代方案。

3 平均马氏距离(AMD)

我们将轨迹预测问题定义如下：给定在一系列观察到的时间步长 $T_o$ 中观察到的 $N$ 个代理的轨迹，目标是预测下一个 $T_p$ 预测时间步长。观察到的轨迹包含 $P$ 个点，其中每个点表示代理的空间位置。在行人轨迹预测问题中， $P$ 是一个二维笛卡尔位置 $(x, y)$ 。我们将观察集表示为 $d_o = \{p_t| t ∈ T_o\}$ ，预测集表示为 $d_p = \{p_t| t ∈ T_p\}$ 。为了突出当前 BoN ADE/FDE 中的问题，我们从图 2 开始，该图说明了不同类型的预测模型输出。对于确定性模型，可以直接计算公式1中定义的ADE/FDE度量。但对于生成模型，ADE/FDE由BoN方法计算。
BoN 通过对 N（通常为 20）样本进行采样，选择最接近地面实况的样本，然后使用该样本计算 ADE/FDE。我们可以在多个方面批评这种 BoN 方法。主要问题是它没有量化整个生成的样本，只关注最接近的样本。这可能会使一个密度围绕 Ground-truth 的模型与另一个密度完全脱离 ground-truth 但有一个样本靠近 ground-truth模型相比显得更不利。我们可以在预告图1中看到这一点。我们基于另一个问题，用这种方法的BoN，一个人可以运行几次度量，得到的结果比另一个模型好1厘米。在某些极端情况下，幸运的随机运行可能具有非常低的BoN ADE/FDE。[12]的工作注意到了这个问题，并引入了公式1中定义的内核密度估计(KDE)的使用。KDE是一个基于内核的工具，它获得预测概率密度的非参数表示。然后，计算并以对数单位(nats)报告基础真值的负对数似然。然而，KDE度量有许多限制和顾虑。主要的问题是，在样本数量较少的情况下，KDE度量对内核的选择很敏感，这是实际数据集中的情况。图3展示了KDE中使用的不同内核选择与各种混合发行版的对比。我们注意到，当使用高斯核函数时;它不会区分不同的样本，并且与其他输出相比，可能更倾向于具有完整GMM输出的模型。我们还注意到，当使用不同的内核选择时，我们可能会得到混合的结果，例如使用tophat内核与高斯内核。[12]的工作是使用带有高斯核的KDE度量。KDE内核的另一个限制是它不包含易于解释的分析属性。这种限制是因为KDE的非参数特性。这些令人感兴趣的性质可能是概率矩和置信区间。

其中， $p^n_t$ 为agent $n \in N$ 在预测时间步长 $t∈T_p$ 处的真实位置， $\hat{p}^n_t$ 为预测位置。新的度量需要是参数化的，以便进一步分析，并且对计算距离的方式不敏感。因此，我们引入马氏距离的用法。马氏距离可以测量一个点离一个分布的距离，同时将距离与预测的方差联系起来。它还具有将其与卡方分布联系起来的分析性质，在卡方分布中，人们可以评估预测的置信度。最后，它依赖于高斯分布，这允许进一步分析预测的矩。马氏距离 (MD) 定义为： $M_{D}\left(\hat{\mu},\hat{\Sigma},p\right)=\sqrt{(p-\hat{\mu})^{T}\hat{\Sigma}^{-1}(p-\hat{\mu})}$ 。 $\hat{μ}$ 是预测的平均值， $\hat{Σ}$ 是预测分布的方差， $p$ 是地面实况位置。最初，马氏距离不是为 GMM 分布设计的。然而，[39]的工作将MD扩展为GMM，将其表述为:

其中平均和加权的每个混合分量的逆协方差 $\hat{G}$ 定义为： $\hat{G}=\frac{\sum_{k=1}^{K}\hat{\Sigma}_{k}^{-1}\hat{\pi}_{k}\int_{\hat{\mu}_{\mathrm{GMM}}}^{p}p(x|k)dx}{\sum_{k=1}^{K}\hat{\pi}_{k}\int_{\hat{\mu}_{\mathrm{GMM}}}^{p}p(x|k)dx},$ 其中， $K$ 为混合成分的个数， $\hat{π}_k$ 为第 $K$ 个的权重，GMM的均值定义为 $\hat{\mu}_{\mathrm{GMM}}=\sum_{k=1}^{K}\hat{\pi}_{k}\hat{\mu}_{k}$ 。
G中的积分项是可处理的，如[39]所述。我们注意到，如果GMM只包含一个分量，G将是 $\hat{Σ}^{−1}$ ，因此Tipping’s MD是原始MD的更广义的版本。我们的方法如下，无论模型产生的分布或输出是什么，我们都将其拟合到GMM中。这可以通过贝叶斯信息准则(BIC)很容易地解决: $\ln n−2 \ln \hat{L}_{GMM}$ ，其中m为GMM模型的参数个数，n为观测数据点的个数， $\hat{L}_{GMM}$ 为模型的似然函数。BIC越低，表示数据点的GMM模型拟合得越好。最佳GMM是根据BIC自动选择的。从已经预测轨迹的均值和方差(如[1,27])的模型中抽样的原因来看，我们想要公平。拟合GMM会产生某种误差，因此我们希望将这种误差纳入所有测量模式，以获得统一的度量。图5显示了这个错误。

因为确定性模型没有方差，所以我们需要模型中误差的表示。我们可以多次训练确定性模型并将预测拟合到GMM。另一种建议是计算集合均值和方差，直接应用MD距离，而不需要GMM拟合。后一种方法的误差可能相当于GMM拟合误差，使度量更公平。在补充部分，我们讨论了这两种情况。我们认为，评估确定性模型与生成模型是一个需要进一步研究的开放问题，它是一个类似于KDE[12]限制的限制。现在，我们定义平均马氏距离(AMD):

4 平均最大特征值(AMV)

AMD指标的一个主要关注点是它与分布的方差高度相关。例如：一个模型可以预测未来的轨迹，具有巨大的非实际方差，但是其ground truth接近平均值。这将导致与另一个具有较高方差的模型相比，AMD非常低。另一个例子是一个模型，它预测了一个以米为单位的巨大方差，覆盖了所有预测点。这也将导致一个最佳的AMD值。为了对抗这种错误的行为，我们需要我们的模型具有低AMD伴随着低方差，即更确定的模型。此外，在实际应用中，我们需要量化预测的总体不确定性，以对性能有一个整体的看法。因此，我们引入了协方差矩阵特征值的用法。协方差矩阵的最大幅度特征值是协方差矩阵扩展的一个指标。图4显示了两个分布，左边的方差比右边的小。我们注意到一个不动点相对于左分布的MD要比右分布高得多。然而，左侧分布的最大特征值远小于右侧分布，显示了预测的传播。因此，为了正确地评估模型，我们需要AMD和对扩散的测量。正如我们讨论过的我们可以直接从预测协方差矩阵中测量价差。由于我们在AMD度量中引入了框架，我们有一个预测的协方差矩阵。KDE度量中缺少的东西。现在，我们可以引入AMV度量:

其中 $λ^↓_1$ 是矩阵特征值中幅度最大的特征值。 $\hat{Σ}_{GMM}$ 为预测GMM分布的协方差矩阵，定义为:
$\hat{\Sigma}_{\mathrm{GMM}}=\sum_{k=k}^{K}\hat{\pi}_{k}\hat{\Sigma}_{k}+\sum_{k=1}^{K}\hat{\pi}_{k}(\hat{\mu}_{k}-\hat{\hat{\mu}}_{\mathrm{GMM}})(\hat{\mu}_{k}-\hat{\mu}_{\mathrm{GMM}})^{T}$
因此，AMV成为评估预测轨迹总体分布的度量。具有低AMD的模型将具有更接近实际情况的预测分布。而且一个AMV较低的模型在他们的预测中会更加确定。因此，与具有较高AMD/AMV平均值的模型相比，具有较低AMD/AMV平均值的模型是首选。为此，我们使用 $\frac{AMD+AMV}{2}$ 作为一个好模型的指标。

5 轨迹条件隐式最大似然估计(IMLE)机制

通过从AMD/AMV度量的目标归纳出一个模型，该模型生成的样本接近于低扩散的真实情况，我们需要一个训练机制，允许完全控制预测样本作为主要优化目标。典型的训练机制，如最大似然估计(MLE)或其变体最大化证据下界(ELBO)，鼓励预测样本接近一些(Ground-truth)数据样本。这样可能会遗漏一些数据样例，导致 model dropping [17]。其他方法，如gan，需要引入额外的模块，如鉴别器，它们的训练通常是不稳定的，需要仔细调整以达到适当的纳什平衡(Nash’s equilibrium)。[17]的工作引入了隐式最大似然估计(IMLE)的概念。IMLE 鼓励每个目标地面实况接近一些预测样本。因此，与 MLE 不同，它会导致预测分布更好地覆盖Ground-truth。IMLE 通过简单的机制训练模型：将噪声注入模型的输入以预测多个样本，选择最接近Ground-truth的样本，并使用该样本反向传播。与其他生成方法不同，IMLE 没有使用特定的训练技术加载优化目标，并且由于简单的基于距离的最小化优化，保持训练稳定。使用 IMLE 作为训练机制与 AMD/AMV 目标对齐，并专注于预测输出的重要产品。IMLE 的另一个观点是，与卡尔曼滤波器等估计技术相比，它是一种更先进的神经技术，其中过程和测量噪声驱动模型。我们建议读者参考原始的 IMLE 论文 [17] 进行进一步讨论。训练机制如算法1所示.

7 Social-Implicit模型

在本节中，我们将介绍 Social-Implicit 模型。Social-Implicit 在内存大小上很小，只有 5.8K 参数，实时为 588Hz。该方法包括三个概念，Social-Zones、Social-Cell 和 Social-Loss。
**Social-Zones：**Social-Zones 根据观察到的代理轨迹的最大速度变化对其进行聚类。平均行人速度为1.2m/s[14]。我们注意到，我们可以将行人的运动聚类为四组。第一组是无运动组，行人以红绿灯为例等待。这个组的最大速度变化在 0-0.01m/s 之间。第二类是运动幅度极小的行人，即在原地晃动的人或相互打招呼的一群行人，这类行人的最大速度变化通常在 0.01-0.1m/s 之间。第三类是平均步行速度的行人，这些行人的运动速度在 0.1-1.2m/s 之间。最后一类是奔跑的行人，一般速度在1.2m/s以上。当深度模型在静止行人和快速行人旁边进行训练时，预测中将存在对移动行人的偏见。这将迫使模型将不移动的物体预测为移动的物体。这是一种数据失衡，或者换句话说，是零(静止)膨胀的数据问题。因此，需要社会区域的概念来解决这个问题。从经验上看，我们表明，我们的模型与社会区域比没有它表现得更好。社会区域的输入是观察到的轨迹，输出是行人集群，每个集群是一个维度图 $P × T_o × N$ .

Social-Cell: Social-Implicit 模型的基本构建单元是 Social-Cell。Social-Cell 是一个 4 层深度模型，它简单且直接处理观察的时空方面。图 7 说明了 Social-Cell 的结构。我们注意到单元格有两个组件，一个组件在本地级别处理每个单独的代理，一个在全局级别处理整个代理。我们通过自学习权重结合局部和全局流来生成单元的最终输出。局部和全局流都是两个连续的残差连接的 CNN 层。第一个 CNN 是一个空间 CNN，它创建了观察到的代理的空间信息的嵌入。第二层是一个时间 CNN，它处理观察到的轨迹的时间方面。它将时间视为一个特征通道，允许我们在不使用循环网络[27]的情况下预测下一个 $T_p$ 时间步长。我们发现这种简单的架构与更大和复杂的模型一样有效，导致较小的内存大小和实时性能。每个 Social-Cell 处理一个特定的 Social-Zone。输入是 $P × T_o × N$ ，输出是 $P × T_p × N$ 。操作如图7所示。
**Social-Loss: **Social-Implicit 的损失函数表现出几个部分。第一部分是我们之前讨论的 IMLE 机制的直接优化目标。第二部分是三元组损失。这种三元组损失将锚点视为最接近 Ground-truth的样本 $\tilde{d}^1_p$ 。正样本是下一个最接近 ground-truth 的样本 $\tilde{d}^2_p$ 。负样本 $\tilde{d}^m_p$ 是距离 Ground-truth 最远的样本。这有助于将样本分组，使其更接近地面实况，从而使真实轨迹的分布更紧密。损失的最后一部分是一个几何损失函数，它将预测位置视为一个多边形。首先，它确保预测位置之间的内部距离与Ground-truth位置之间的内部距离相匹配。其次，它确保预测点之间的角度与地面实况点之间的角度相同。它确保预测的场景在几何上看起来像Ground-truth。我们在公式5中定义了这些损失。场景的社会方面可以超越我们引入的开放研究领域的内容来解决。

7 实验分析

7.1 指标敏感性分析与评价

我们表明 BoN ADE/FDE 指标对分布的变化或偏移不敏感，而 AMD 和 KDE 可以量化这种变化。图 1 说明了这个概念。我们通过使用不同的量（特别是 ±1cm 和 ±10cm）移动他们的预测样本来测试不同的模型。在所有模型中，BoN ADE/FDE 指标根本没有变化或有非常小的细微变化。与测量整个分布的指标（如 AMD 和 KDE）不同，预测分布的位移反映在度量中。最后，ADE/FDE 指标对整个分布的变化不敏感，即使在 10cm 的巨大变化上，这有时可以在另一个数据集上定义一个新的 SOTA 模型。因此，BoN ADE/FDE 指标无法评估整个预测轨迹。此外，AMV 指标保持不变，这是意料之中的，因为仅移动预测不会改变方差。我们注意到 Trajectron++ 的 KDE 与其他模型不同 -ve，因为 Trajectron++ 输出是一个 GMM 分布，由于我们之前讨论的内核选择，它是 KDE 度量中的偏差。
为了定量评估指标，我们使用 ETH/UCY 数据集报告了不同运动预测模型的 AMD/AMV、KDE 和 ADE/FDE 指标。我们选择了S-GAN[9]和S-STGCNN[27]等经典方法。我们还选择了较新的轨迹，例如Trajectron++ [36] 和 ExpertTraj [43]。从表1 中，我们注意到最后两个被认为是 SOTA 的模型在 ADE/FDE 指标上相差几厘米。然而，当我们使用 AMD/AMV 指标评估这两者时，我们注意到 Trajectron++ 的性能比 ExpertTraj 模型好得多。从 AMD/AMV 指标来看，ExpertTraj 生成一个不围绕Ground-truth的紧密分布，这导致 AMD 与 Trajectron++ 不同。虽然 ExpertTraj 和 Trajectron++ 都有非常接近的 ADE/FDE 指标，但整个预测样本的质量完全不同。检查我们的模型 Social-Implicit 的结果，我们看到它具有最低的 AMD/AMV。通过总结结果，ADE/FDE 指标并不表明与上述敏感性分析相关的模型的整体性能。我们在斯坦福无人机数据集 (SDD) [33] 上测试我们的模型和指标。我们遵循 SOTA 模型 DAG-Net [28] 的设置。表 2 中的实验结果表明，我们的模型优于 DAG-Net。这与 ETH/UCY 数据集的结果一致。

7.2 Social-Implicit消融实验

我们对 Social-Implicit 组件进行了消融研究，表 3 说明了结果。我们注意到 Social-Zones 的存在将 AMD 指标提高了近 40%。它还导致了良好的 AMV 值，从而提高了整体 AMD/AMV 性能。我们注意到，Social-Zones 和三元组损失可以提高 AMD/AMV。几何角度损失的影响大于几何距离损失来改善AMD/AMV，两个一起使用表现的更好。

7.3 推理和内存分析

与 AMD/AMV 指标的其他模型相比，Social-Implicit 除了最准确的模型外，它在参数大小和推理时间方面是最小和最大的。表 4 显示了这些结果。最接近的 SOTA 是 ExpertTraj，Social-Implicit 小 55 倍，快 8.5 倍。

7.4 Social-Zones消融

表 5 显示了区域数量的消融。不同的区域会影响模型的性能。此外，该模型对区域的速度很敏感。例如，当我们将最后一个区域从 1.2m/s 更改为 0.6m/s 时，结果发生了变化。1.2m/s 反映了人类的平均步行速度，因此 0.6m/s 不适合数据，因此与 1.2m/s 相比，它会导致性能下降。

7.5 定性结果

在图 8 中，我们列出了我们的方法和基线模型的两个定性示例。在第一行，我们看到行人在地面实况未来结束时右转。我们注意到 Social-Implicit 和 Trajectron++ 很好地涵盖了Ground-truth，而 S-GAN 和 ExpertTraj 为我们提供了早期的转弯预测并远离Ground-truth。第二行显示了锯齿状步行行人。与我们的和 S-GAN 不同，S-STGCNN、Trajectron++ 和 ExpertTraj 等基线模型无法生成良好的分布来覆盖地面实况轨迹。尽管 ExpertTraj 的预测接近Ground-truth，但 ExpertTraj 过于自信地与Ground-truth相矛盾。定性结果表明我们的预测分布更好。我们还在图 9 中展示了多智能体交互。 ExpertTraj 过于自信地缺少真实情况，SSTGCNN 与碰撞有很大的方差，Trajectron++ 的真实接近预测分布尾部，而我们的真实平衡是正确的。附录中的更多定性结果。

附录:

确定性模型评估

我们在 ETH/UCY 数据集上训练 Social-STGCNN [27] 作为确定性模型。它不是预测高斯分布，而是预测轨迹目录。训练使用 MSE 作为损失函数。我们想测试两个假设来评估确定性模型。第一个是多次训练它，并使用集成来找到每个预测轨迹的均值和方差。另一种方法是在前一种方法的基础上，通过计算均值和方差，拟合出一个 GMM，然后从这个 GMM 中采样。在本实验中，我们使用不同的随机种子对 Social-STGCNN 进行了 3 次训练。表 6 显示了结果。报告了第一次设置的 AMD 和 AMV。我们没有报告 KDE，因为没有方法可以在不采样的情况下根据均值和方差计算 KDE，而我们的指标 AMD 则不同，它可以直接将均值和方差插入 Mahalanobis 距离方程。在第二种设置中，AMD、AMV 和 KDE 的报告是在我们将样本拟合到 GMM 拟合中，然后对多个样本进行采样后得出的。我们只使用了 Social-STGCNN 的 3 个集合来模拟现实生活中的情况，因为对其进行 1000 次训练并创建一个集合是不可行的。我们在表 6 中注意到，第二种设置的 AMD 和 KDE 非常大，这表明 GMM 拟合没有收敛，因为我们只有 3 个样本。通常，我们使用 1000 个样本来保证 GMM 收敛，因此第二种设置是不可行的，因为我们需要这么多的样本才能很好地拟合 GMM 模型。我们注意到，在第一种和第二种设置中，AMV 值是相同的。这是意料之中的，因为 AMV 指标是衡量传播的指标。在第一种情况下，AMD 值对于一个确定性模型来说似乎是合理的，因为 [25] 的研究表明，大多数运动预测问题都可以用线性卡尔曼滤波器来解决。AMV 指标的巨大数值也证明了这一点，因为确定性模型不会有那么大的偏差。我们将此与主要论文中关于 ExpertTraj 的结果联系起来，在 ExpertTraj 中，AMV 值与我们训练的确定性模型处于同一数量级。换句话说，ExpertTraj 确实表现得像一个确定性模型，因为它的差值很小。我们可以从图 12 和图 13 中的一些直观案例中发现这一点。为了进一步分析，我们在图 11 中绘制了一些由确定性模型集合生成的样本，并将其与图 11 中的散布情况并列。我们注意到，有时预测结果的传播可能接近地面实况，如左上角的样本。也有可能完全偏离，如其他样本。因此我们认为，使用 AMD/AMV 指标来评估确定性模型的性能，使用几个版本的确定性模型的集合是一种很好的方法。此外，有了 AMV 指标作为优化目标，我们就可以使用有助于鼓励多样性的方法来训练集合[22]。