Social-Implicit 文章翻译 《轨迹预测》

ECCV 2022 Social-Implicit_ Rethinking Trajectory Prediction Evaluation and The Effectiveness of Implicit MLE

原文:https://arxiv.org/abs/2203.03057
代码:https://github.com/abduallahmohamed/Social-Implicit

image.png

最佳 N (BoN) 平均位移误差 (ADE)/最终位移误差 (FDE) 是评估轨迹预测模型最常用的指标。然而,BoN 并没有量化整个生成的样本,导致模型的预测质量和性能不完整。我们提出了一种新的度量,平均马氏距离 (AMD) 来解决这个问题。AMD 是一个度量,它量化了整个生成的样本与Ground-truth的接近程度。我们还引入了量化预测整体传播的平均最大特征值 (AMV) 度量。这些指标通过表明 ADE/FDE 对分布变化不敏感来凭经验验证,与 AMD/AMV 指标不同,准确度有偏差意义。我们引入了隐式最大似然估计 (IMLE) 的使用作为传统生成模型的替代品来训练我们的模型 Social-Implicit。IMLE 训练机制与 AMD/AMV 目标一致,该目标预测与紧密传播接近地面实况的轨迹。Social-Implicit 是一个内存高效的深度模型,只有 5.8K 参数,实时运行约 580Hz,并取得了有竞争力的结果。

1 引言

轨迹预测是自动驾驶[6,18,5,41,34]、增强现实[20,40]和机器人[21,3]等多个应用的重要组成部分。通常,解决这个问题需要一个生成模型来预测未来代理的轨迹。尽管有很多深度模型和设计架构来解决这个问题,但所使用的评估方法受到质疑。通常,两个指标用于评估轨迹预测模型。第一个是平均位移误差(ADE)[29],它是预测和地面真实轨迹之间的平均L2距离。较低的 ADE 值意味着整体预测轨迹接近地面实况。另一个指标是最终位移误差 (FDE) [1],它是两个最终预测位置和地面实况位置之间的 L2 距离。换句话说,它描述了预测的代理是否达到其最后一个目标。此外,FDE 越低,模型在预测期间不会累积错误方面越好。在使用基于循环的架构的先前工作中注意到累积错误的问题,从而导致更高的 FDE。先前的工作引入了基于 CNN 的完整架构 [27] 的想法来解决这种错误累积行为。然而,这种 ADE/FDE 指标仍然不适合生成模型。生成模型预测未来轨迹的多个样本,隐式形成预测分布。这种生成行为适用于问题,因为代理或行人的运动可以是具有可能未来轨迹的多模态。为了在生成设置中使用 ADE/FDE,[1,9] 的工作引入了最佳 N (BoN) 的概念。BoN 技术从 N 个样本中选择最接近地面实况的样本,并计算其上的 ADE/FDE 度量。这有一个主要问题,即忽略生成的样本集。模型可能会生成一个异常值样本,该样本幸运地接近Ground-truth,而其他样本则远离Ground-truth。这种方法在实际应用中也失败了,因为预测的评估缺乏。一些重要的组件,如运动规划和避碰,需要对预测进行完整的视图。我们注意到最近的模型[36,43,26,23]是基于ADE/FDE度量的最先进模型[36,43,26,23]在ETH[29]和UCY[16]数据集上仅相差1cm ADE和几厘米FDE,这是该领域最常用的数据集之一。以前的 SOTA 模型和下一个模型之间的 1cm 差异是如此微妙和微小,以至于它可以是注释错误或异常值采样。因此,需要一个新的指标来评估整个预测样本,并具有整个生成分布是关于Ground-truth的意义。此外,需要量化生成样本的不确定性,以了解模型的置信度,这是现实应用中需要的。为此,我们引入了马氏距离 [24] 作为该领域的指标。我们引入了两个指标,即平均马氏距离 (AMD),它评估生成的分布相对于Ground-truth的接近程度,以及评估预测置信度的平均最大特征值 (AMV)。AMD 量化了地面实况点在标准偏差单元意义上与预测分布的接近程度。此外,AMD 与 χ2 分布连接,帮助我们确定当生成的分布自由度已知时预测的置信度。AMV 取决于预测分布协方差矩阵的特征值的最大幅度。它量化了预测的传播。因此,我们可以通过使用它来判断模型是否比另一个模型更有信心。因此,我们的目标是实现一个模型,该模型生成一个接近ground truth的分布,并在ground truth周围有一个小的样本分布。我们的目标是重新思考用于训练运动预测模型的生成模型的性质。我们可以将使用的生成技术分为参数和非参数技术。参数使用最大似然估计 (MLE) 将预测的轨迹建模为高斯或高斯混合模型 (GMM)。生成对抗网络(GANs)[8]是非参数分布的例子。这些方法学习观察到的轨迹的分布,以生成未来的轨迹。然而,轨迹预测模型的主要目标是生成的样本本身。MLE 需要大量样本才能收敛,这是我们在实践中没有的东西。虽然 GAN 依赖于鉴别器的设计,VAE 需要优化证据下界 (ELBO)。因此,我们需要一种生成方法,该方法只关注生成的样本,并且没有额外的麻烦。在这项工作中,我们表明隐式最大似然估计 (IMLE) 技术是这些方法的有效替代方案。IMLE 直接关注预测的轨迹,简化了优化函数。通过使用 IMLE 来训练我们的引入的模型 Social-Implicit,与之前的工作相比,预测的轨迹在质量和准确性方面有所提高。Social-Implicit 是一个内存高效的深度模型,只有 5.8K 参数几乎比最接近的 SOTA 小 55 倍,并且实时运行速度比最接近的 SOTA 快 8.5 倍。

2 文献综述

2.1 轨迹预测模型

最近的工作提出了各种模型来预测未来轨迹。根据它们的输出格式,它们可以大致分为两类。将未来显式建模为参数分布,或者将未来隐式建模为非参数分布。在第一类中,方法明确地将未来建模为连续或离散分布 [1,27,32,4,36,38,5,19,44,15,31,42,43]。例如,S-LSTM [1] 和 S-STGCNN [27] 使用高斯分布来模拟最大似然估计 (MLE) 训练的未来轨迹。高斯分布是单模的,不能捕捉到未来的多模态。为了解决这个问题,PRECOG[32]、Trajectron++[36]、ExpertTraj[43]和AgentFormer[42]学习了一个潜在的行为分布,它可以是离散的[36,43]或连续的[32,42],来表示代理的多模态意图。在这些作品中,预测的高斯分布是根据采样的潜在意图生成的。这种方法通常基于条件 VAE [37]。除了像MTP[5]和LaneGCN[19]这样的高斯方法这样的连续分布外,使用离散分布来表示未来。这些方法预测固定数量的确定性轨迹作为未来的候选轨迹,并使用分类分布对其可能性进行建模。在第二类中,一些方法以隐式方式对未来的分布进行建模。例如,S-GAN[9]、SoPhie[35]、S-BiGAT[13]和DiversityGAN[10]遵循条件GAN[7]架构。他们不是生成分布作为模型输出,而是预测以随机采样噪声为条件的确定性轨迹,并通过对抗性损失机制进行训练。我们提出的方法 SocialImplicit 通过使用 IMLE [17] 对其进行隐式建模,避免了 GAN 训练机制中的鉴别器等其他麻烦。

2.2 轨迹预测指标

大多数轨迹预测方法都是通过度量平均位移误差(ADE)[29]或最终位移误差(FDE)[1]来评估的。这两个指标基于预测和地面实况轨迹之间的整个时间范围 (ADE) 或最后一个时间步 (FDE) 的 L2 距离。当模型生成分布作为输出时,应用 Best-of-N 技巧 [9] 仅从 N 个采样预测评估最佳轨迹。平均 ADE/FDE 也可用于评估预测,它主要适用于单模态预测,当预测接近高斯分布时。在多模态中,当轨迹出现左转/右转时,以 ADE/FDE 作为评价指标有失准确。评估分布质量的另一种方法是核密度估计 (KDE),首先在 [12] 中使用。KDE 拟合来自预测样本的基于内核的分布,并估计地面实况的负对数似然作为评估分数。Quehl等人[30]提出了一种综合度量,它是不同相似性度量的加权和,以缓解度量偏差。但是他们的指标仅适用于确定性模型。我们提出了两个新的指标 Average Mahalanobis Distance (AMD) 和 Average Maximum Eigenvalue (AMV),它们是 BoN ADE/FDE 在评估预测方面的更好替代方案。

3 平均马氏距离(AMD)

image.png
image.png
我们将轨迹预测问题定义如下:给定在一系列观察到的时间步长 T o T_o To 中观察到的 N N N 个代理的轨迹,目标是预测下一个 T p T_p Tp 预测时间步长。观察到的轨迹包含 P P P 个点,其中每个点表示代理的空间位置。在行人轨迹预测问题中, P P P 是一个二维笛卡尔位置 ( x , y ) (x,y) (x,y)。我们将观察集表示为 d o = { p t ∣ t ∈ T o } d_o = \{p_t| t ∈ T_o\} do={pttTo},预测集表示为 d p = { p t ∣ t ∈ T p } d_p = \{p_t| t ∈ T_p\} dp={pttTp}。为了突出当前 BoN ADE/FDE 中的问题,我们从图 2 开始,该图说明了不同类型的预测模型输出。对于确定性模型,可以直接计算公式1中定义的ADE/FDE度量。但对于生成模型,ADE/FDE由BoN方法计算。
BoN 通过对 N(通常为 20)样本进行采样,选择最接近地面实况的样本,然后使用该样本计算 ADE/FDE。我们可以在多个方面批评这种 BoN 方法。主要问题是它没有量化整个生成的样本,只关注最接近的样本。这可能会使一个密度围绕 Ground-truth 的模型与另一个密度完全脱离 ground-truth 但有一个样本靠近 ground-truth模型相比显得更不利。我们可以在预告图1中看到这一点。我们基于另一个问题,用这种方法的BoN,一个人可以运行几次度量,得到的结果比另一个模型好1厘米。在某些极端情况下,幸运的随机运行可能具有非常低的BoN ADE/FDE。[12]的工作注意到了这个问题,并引入了公式1中定义的内核密度估计(KDE)的使用。KDE是一个基于内核的工具,它获得预测概率密度的非参数表示。然后,计算并以对数单位(nats)报告基础真值的负对数似然。然而,KDE度量有许多限制和顾虑。主要的问题是,在样本数量较少的情况下,KDE度量对内核的选择很敏感,这是实际数据集中的情况。图3展示了KDE中使用的不同内核选择与各种混合发行版的对比。我们注意到,当使用高斯核函数时;它不会区分不同的样本,并且与其他输出相比,可能更倾向于具有完整GMM输出的模型。我们还注意到,当使用不同的内核选择时,我们可能会得到混合的结果,例如使用tophat内核与高斯内核。[12]的工作是使用带有高斯核的KDE度量。KDE内核的另一个限制是它不包含易于解释的分析属性。这种限制是因为KDE的非参数特性。这些令人感兴趣的性质可能是概率矩和置信区间。
image.png
其中, p t n p^n_t ptn为agent n ∈ N n∈N nN 在预测时间步长 t ∈ T p t∈T_p tTp处的真实位置, p ^ t n \hat{p}^n_t p^tn为预测位置。新的度量需要是参数化的,以便进一步分析,并且对计算距离的方式不敏感。因此,我们引入马氏距离的用法。马氏距离可以测量一个点离一个分布的距离,同时将距离与预测的方差联系起来。它还具有将其与卡方分布联系起来的分析性质,在卡方分布中,人们可以评估预测的置信度。最后,它依赖于高斯分布,这允许进一步分析预测的矩。马氏距离 (MD) 定义为: M D ( μ ^ , Σ ^ , p ) = ( p − μ ^ ) T Σ ^ − 1 ( p − μ ^ ) M_{D}\left(\hat{\mu},\hat{\Sigma},p\right)=\sqrt{(p-\hat{\mu})^{T}\hat{\Sigma}^{-1}(p-\hat{\mu})} MD(μ^,Σ^,p)=(pμ^)TΣ^1(pμ^) μ ^ \hat{μ} μ^ 是预测的平均值, Σ ^ \hat{Σ} Σ^ 是预测分布的方差, p p p 是地面实况位置。最初,马氏距离不是为 GMM 分布设计的。然而,[39]的工作将MD扩展为GMM,将其表述为:
image.png
其中平均和加权的每个混合分量的逆协方差 G ^ \hat{G} G^定义为: G ^ = ∑ k = 1 K Σ ^ k − 1 π ^ k ∫ μ ^ G M M p p ( x ∣ k ) d x ∑ k = 1 K π ^ k ∫ μ ^ G M M p p ( x ∣ k ) d x , \hat{G}=\frac{\sum_{k=1}^{K}\hat{\Sigma}_{k}^{-1}\hat{\pi}_{k}\int_{\hat{\mu}_{\mathrm{GMM}}}^{p}p(x|k)dx}{\sum_{k=1}^{K}\hat{\pi}_{k}\int_{\hat{\mu}_{\mathrm{GMM}}}^{p}p(x|k)dx}, G^=k=1Kπ^kμ^GMMpp(xk)dxk=1KΣ^k1π^kμ^GMMpp(xk)dx,其中, K K K为混合成分的个数, π ^ k \hat{π}_k π^k为第 K K K个的权重,GMM的均值定义为 μ ^ G M M = ∑ k = 1 K π ^ k μ ^ k \hat{\mu}_{\mathrm{GMM}}=\sum_{k=1}^{K}\hat{\pi}_{k}\hat{\mu}_{k} μ^GMM=k=1Kπ^kμ^k
G中的积分项是可处理的,如[39]所述。我们注意到,如果GMM只包含一个分量,G将是 Σ ^ − 1 \hat{Σ}^{−1} Σ^1,因此Tipping’s MD是原始MD的更广义的版本。我们的方法如下,无论模型产生的分布或输出是什么,我们都将其拟合到GMM中。这可以通过贝叶斯信息准则(BIC)很容易地解决: B I C = m ln ⁡ n − 2 ln ⁡ L ^ G M M BIC =m \ln n−2 \ln \hat{L}_{GMM} BIC=mlnn2lnL^GMM,其中m为GMM模型的参数个数,n为观测数据点的个数, L ^ G M M \hat{L}_{GMM} L^GMM为模型的似然函数。BIC越低,表示数据点的GMM模型拟合得越好。最佳GMM是根据BIC自动选择的。从已经预测轨迹的均值和方差(如[1,27])的模型中抽样的原因来看,我们想要公平。拟合GMM会产生某种误差,因此我们希望将这种误差纳入所有测量模式,以获得统一的度量。图5显示了这个错误。
image.png
因为确定性模型没有方差,所以我们需要模型中误差的表示。我们可以多次训练确定性模型并将预测拟合到GMM。另一种建议是计算集合均值和方差,直接应用MD距离,而不需要GMM拟合。后一种方法的误差可能相当于GMM拟合误差,使度量更公平。在补充部分,我们讨论了这两种情况。我们认为,评估确定性模型与生成模型是一个需要进一步研究的开放问题,它是一个类似于KDE[12]限制的限制。现在,我们定义平均马氏距离(AMD):
image.png

4 平均最大特征值(AMV)

AMD指标的一个主要关注点是它与分布的方差高度相关。例如:一个模型可以预测未来的轨迹,具有巨大的非实际方差,但是其ground truth接近平均值。这将导致与另一个具有较高方差的模型相比,AMD非常低。另一个例子是一个模型,它预测了一个以米为单位的巨大方差,覆盖了所有预测点。这也将导致一个最佳的AMD值。为了对抗这种错误的行为,我们需要我们的模型具有低AMD伴随着低方差,即更确定的模型。此外,在实际应用中,我们需要量化预测的总体不确定性,以对性能有一个整体的看法。因此,我们引入了协方差矩阵特征值的用法。协方差矩阵的最大幅度特征值是协方差矩阵扩展的一个指标。图4显示了两个分布,左边的方差比右边的小。我们注意到一个不动点相对于左分布的MD要比右分布高得多。然而,左侧分布的最大特征值远小于右侧分布,显示了预测的传播。因此,为了正确地评估模型,我们需要AMD和对扩散的测量。正如我们讨论过的我们可以直接从预测协方差矩阵中测量价差。由于我们在AMD度量中引入了框架,我们有一个预测的协方差矩阵。KDE度量中缺少的东西。现在,我们可以引入AMV度量:
image.png
其中 λ 1 ↓ λ^↓_1 λ1是矩阵特征值中幅度最大的特征值。 Σ ^ G M M \hat{Σ}_{GMM} Σ^GMM为预测GMM分布的协方差矩阵,定义为:
Σ ^ G M M = ∑ k = k K π ^ k Σ ^ k + ∑ k = 1 K π ^ k ( μ ^ k − μ ^ ^ G M M ) ( μ ^ k − μ ^ G M M ) T \hat{\Sigma}_{\mathrm{GMM}}=\sum_{k=k}^{K}\hat{\pi}_{k}\hat{\Sigma}_{k}+\sum_{k=1}^{K}\hat{\pi}_{k}(\hat{\mu}_{k}-\hat{\hat{\mu}}_{\mathrm{GMM}})(\hat{\mu}_{k}-\hat{\mu}_{\mathrm{GMM}})^{T} Σ^GMM=k=kKπ^kΣ^k+k=1Kπ^k(μ^kμ^^GMM)(μ^kμ^GMM)T
因此,AMV成为评估预测轨迹总体分布的度量。具有低AMD的模型将具有更接近实际情况的预测分布。而且一个AMV较低的模型在他们的预测中会更加确定。因此,与具有较高AMD/AMV平均值的模型相比,具有较低AMD/AMV平均值的模型是首选。为此,我们使用 A M D + A M V 2 \frac{AMD+AMV}{2} 2AMD+AMV作为一个好模型的指标。

5 轨迹条件隐式最大似然估计(IMLE)机制

通过从AMD/AMV度量的目标归纳出一个模型,该模型生成的样本接近于低扩散的真实情况,我们需要一个训练机制,允许完全控制预测样本作为主要优化目标。典型的训练机制,如最大似然估计(MLE)或其变体最大化证据下界(ELBO),鼓励预测样本接近一些(Ground-truth)数据样本。这样可能会遗漏一些数据样例,导致 model dropping [17]。其他方法,如gan,需要引入额外的模块,如鉴别器,它们的训练通常是不稳定的,需要仔细调整以达到适当的纳什平衡(Nash’s equilibrium)。[17]的工作引入了隐式最大似然估计(IMLE)的概念。IMLE 鼓励每个目标地面实况接近一些预测样本。因此,与 MLE 不同,它会导致预测分布更好地覆盖Ground-truth。IMLE 通过简单的机制训练模型:将噪声注入模型的输入以预测多个样本,选择最接近Ground-truth的样本,并使用该样本反向传播。与其他生成方法不同,IMLE 没有使用特定的训练技术加载优化目标,并且由于简单的基于距离的最小化优化,保持训练稳定。使用 IMLE 作为训练机制与 AMD/AMV 目标对齐,并专注于预测输出的重要产品。IMLE 的另一个观点是,与卡尔曼滤波器等估计技术相比,它是一种更先进的神经技术,其中过程和测量噪声驱动模型。我们建议读者参考原始的 IMLE 论文 [17] 进行进一步讨论。训练机制如算法1所示.
image.png

7 Social-Implicit模型

image.png
在本节中,我们将介绍 Social-Implicit 模型。Social-Implicit 在内存大小上很小,只有 5.8K 参数,实时为 588Hz。该方法包括三个概念,Social-Zones、Social-Cell 和 Social-Loss。
**Social-Zones:**Social-Zones 根据观察到的代理轨迹的最大速度变化对其进行聚类。平均行人速度为1.2m/s[14]。我们注意到,我们可以将行人的运动聚类为四组。第一组是无运动组,行人以红绿灯为例等待。这个组的最大速度变化在 0-0.01m/s 之间。第二类是运动幅度极小的行人,即在原地晃动的人或相互打招呼的一群行人,这类行人的最大速度变化通常在 0.01-0.1m/s 之间。第三类是平均步行速度的行人,这些行人的运动速度在 0.1-1.2m/s 之间。最后一类是奔跑的行人,一般速度在1.2m/s以上。当深度模型在静止行人和快速行人旁边进行训练时,预测中将存在对移动行人的偏见。这将迫使模型将不移动的物体预测为移动的物体。这是一种数据失衡,或者换句话说,是零(静止)膨胀的数据问题。因此,需要社会区域的概念来解决这个问题。从经验上看,我们表明,我们的模型与社会区域比没有它表现得更好。社会区域的输入是观察到的轨迹,输出是行人集群,每个集群是一个维度图 P × T o × N P × T_o × N P×To×N.
image.png
Social-Cell: Social-Implicit 模型的基本构建单元是 Social-Cell。Social-Cell 是一个 4 层深度模型,它简单且直接处理观察的时空方面。图 7 说明了 Social-Cell 的结构。我们注意到单元格有两个组件,一个组件在本地级别处理每个单独的代理,一个在全局级别处理整个代理。我们通过自学习权重结合局部和全局流来生成单元的最终输出。局部和全局流都是两个连续的残差连接的 CNN 层。第一个 CNN 是一个空间 CNN,它创建了观察到的代理的空间信息的嵌入。第二层是一个时间 CNN,它处理观察到的轨迹的时间方面。它将时间视为一个特征通道,允许我们在不使用循环网络[27]的情况下预测下一个 T p T_p Tp时间步长。我们发现这种简单的架构与更大和复杂的模型一样有效,导致较小的内存大小和实时性能。每个 Social-Cell 处理一个特定的 Social-Zone。输入是 P × T o × N P × T_o × N P×To×N,输出是 P × T p × N P × T_p × N P×Tp×N。操作如图7所示。
**Social-Loss: **Social-Implicit 的损失函数表现出几个部分。第一部分是我们之前讨论的 IMLE 机制的直接优化目标。第二部分是三元组损失。这种三元组损失将锚点视为最接近 Ground-truth的样本 d ~ p 1 \tilde{d}^1_p d~p1。正样本是下一个最接近 ground-truth 的样本 d ~ p 2 \tilde{d}^2_p d~p2。负样本 d ~ p m \tilde{d}^m_p d~pm 是距离 Ground-truth 最远的样本。这有助于将样本分组,使其更接近地面实况,从而使真实轨迹的分布更紧密。损失的最后一部分是一个几何损失函数,它将预测位置视为一个多边形。首先,它确保预测位置之间的内部距离与Ground-truth位置之间的内部距离相匹配。其次,它确保预测点之间的角度与地面实况点之间的角度相同。它确保预测的场景在几何上看起来像Ground-truth。我们在公式5中定义了这些损失。场景的社会方面可以超越我们引入的开放研究领域的内容来解决。
image.png
image.png

7 实验分析

7.1 指标敏感性分析与评价

我们表明 BoN ADE/FDE 指标对分布的变化或偏移不敏感,而 AMD 和 KDE 可以量化这种变化。图 1 说明了这个概念。我们通过使用不同的量(特别是 ±1cm 和 ±10cm)移动他们的预测样本来测试不同的模型。在所有模型中,BoN ADE/FDE 指标根本没有变化或有非常小的细微变化。与测量整个分布的指标(如 AMD 和 KDE)不同,预测分布的位移反映在度量中。最后,ADE/FDE 指标对整个分布的变化不敏感,即使在 10cm 的巨大变化上,这有时可以在另一个数据集上定义一个新的 SOTA 模型。因此,BoN ADE/FDE 指标无法评估整个预测轨迹。此外,AMV 指标保持不变,这是意料之中的,因为仅移动预测不会改变方差。我们注意到 Trajectron++ 的 KDE 与其他模型不同 -ve,因为 Trajectron++ 输出是一个 GMM 分布,由于我们之前讨论的内核选择,它是 KDE 度量中的偏差。
为了定量评估指标,我们使用 ETH/UCY 数据集报告了不同运动预测模型的 AMD/AMV、KDE 和 ADE/FDE 指标。我们选择了S-GAN[9]和S-STGCNN[27]等经典方法。我们还选择了较新的轨迹,例如Trajectron++ [36] 和 ExpertTraj [43]。从表1 中,我们注意到最后两个被认为是 SOTA 的模型在 ADE/FDE 指标上相差几厘米。然而,当我们使用 AMD/AMV 指标评估这两者时,我们注意到 Trajectron++ 的性能比 ExpertTraj 模型好得多。从 AMD/AMV 指标来看,ExpertTraj 生成一个不围绕Ground-truth的紧密分布,这导致 AMD 与 Trajectron++ 不同。虽然 ExpertTraj 和 Trajectron++ 都有非常接近的 ADE/FDE 指标,但整个预测样本的质量完全不同。检查我们的模型 Social-Implicit 的结果,我们看到它具有最低的 AMD/AMV。通过总结结果,ADE/FDE 指标并不表明与上述敏感性分析相关的模型的整体性能。我们在斯坦福无人机数据集 (SDD) [33] 上测试我们的模型和指标。我们遵循 SOTA 模型 DAG-Net [28] 的设置。表 2 中的实验结果表明,我们的模型优于 DAG-Net。这与 ETH/UCY 数据集的结果一致。
image.png
image.png

7.2 Social-Implicit消融实验

我们对 Social-Implicit 组件进行了消融研究,表 3 说明了结果。我们注意到 Social-Zones 的存在将 AMD 指标提高了近 40%。它还导致了良好的 AMV 值,从而提高了整体 AMD/AMV 性能。我们注意到,Social-Zones 和三元组损失可以提高 AMD/AMV。几何角度损失的影响大于几何距离损失来改善AMD/AMV,两个一起使用表现的更好。
image.png

7.3 推理和内存分析

与 AMD/AMV 指标的其他模型相比,Social-Implicit 除了最准确的模型外,它在参数大小和推理时间方面是最小和最大的。表 4 显示了这些结果。最接近的 SOTA 是 ExpertTraj,Social-Implicit 小 55 倍,快 8.5 倍。
image.png

7.4 Social-Zones消融

表 5 显示了区域数量的消融。不同的区域会影响模型的性能。此外,该模型对区域的速度很敏感。例如,当我们将最后一个区域从 1.2m/s 更改为 0.6m/s 时,结果发生了变化。1.2m/s 反映了人类的平均步行速度,因此 0.6m/s 不适合数据,因此与 1.2m/s 相比,它会导致性能下降。
image.png

7.5 定性结果

在图 8 中,我们列出了我们的方法和基线模型的两个定性示例。在第一行,我们看到行人在地面实况未来结束时右转。我们注意到 Social-Implicit 和 Trajectron++ 很好地涵盖了Ground-truth,而 S-GAN 和 ExpertTraj 为我们提供了早期的转弯预测并远离Ground-truth。第二行显示了锯齿状步行行人。与我们的和 S-GAN 不同,S-STGCNN、Trajectron++ 和 ExpertTraj 等基线模型无法生成良好的分布来覆盖地面实况轨迹。尽管 ExpertTraj 的预测接近Ground-truth,但 ExpertTraj 过于自信地与Ground-truth相矛盾。定性结果表明我们的预测分布更好。我们还在图 9 中展示了多智能体交互。 ExpertTraj 过于自信地缺少真实情况,SSTGCNN 与碰撞有很大的方差,Trajectron++ 的真实接近预测分布尾部,而我们的真实平衡是正确的。附录中的更多定性结果。
image.png
image.png

附录:

确定性模型评估

我们在 ETH/UCY 数据集上训练 Social-STGCNN [27] 作为确定性模型。它不是预测高斯分布,而是预测轨迹目录。训练使用 MSE 作为损失函数。我们想测试两个假设来评估确定性模型。第一个是多次训练它,并使用集成来找到每个预测轨迹的均值和方差。另一种方法是在前一种方法的基础上,通过计算均值和方差,拟合出一个 GMM,然后从这个 GMM 中采样。在本实验中,我们使用不同的随机种子对 Social-STGCNN 进行了 3 次训练。表 6 显示了结果。报告了第一次设置的 AMD 和 AMV。我们没有报告 KDE,因为没有方法可以在不采样的情况下根据均值和方差计算 KDE,而我们的指标 AMD 则不同,它可以直接将均值和方差插入 Mahalanobis 距离方程。在第二种设置中,AMD、AMV 和 KDE 的报告是在我们将样本拟合到 GMM 拟合中,然后对多个样本进行采样后得出的。我们只使用了 Social-STGCNN 的 3 个集合来模拟现实生活中的情况,因为对其进行 1000 次训练并创建一个集合是不可行的。我们在表 6 中注意到,第二种设置的 AMD 和 KDE 非常大,这表明 GMM 拟合没有收敛,因为我们只有 3 个样本。通常,我们使用 1000 个样本来保证 GMM 收敛,因此第二种设置是不可行的,因为我们需要这么多的样本才能很好地拟合 GMM 模型。我们注意到,在第一种和第二种设置中,AMV 值是相同的。这是意料之中的,因为 AMV 指标是衡量传播的指标。在第一种情况下,AMD 值对于一个确定性模型来说似乎是合理的,因为 [25] 的研究表明,大多数运动预测问题都可以用线性卡尔曼滤波器来解决。AMV 指标的巨大数值也证明了这一点,因为确定性模型不会有那么大的偏差。我们将此与主要论文中关于 ExpertTraj 的结果联系起来,在 ExpertTraj 中,AMV 值与我们训练的确定性模型处于同一数量级。换句话说,ExpertTraj 确实表现得像一个确定性模型,因为它的差值很小。我们可以从图 12 和图 13 中的一些直观案例中发现这一点。为了进一步分析,我们在图 11 中绘制了一些由确定性模型集合生成的样本,并将其与图 11 中的散布情况并列。我们注意到,有时预测结果的传播可能接近地面实况,如左上角的样本。也有可能完全偏离,如其他样本。因此我们认为,使用 AMD/AMV 指标来评估确定性模型的性能,使用几个版本的确定性模型的集合是一种很好的方法。此外,有了 AMV 指标作为优化目标,我们就可以使用有助于鼓励多样性的方法来训练集合[22]。
image.png
image.png
image.png
image.png
image.png
image.png

  • 22
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值