Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks论文阅读

摘要:

如果自动移动平台(例如自动驾驶汽车和社交机器人)要在以人为中心的环境中导航,那么了解人类运动行为对于自动移动平台至关重要。这是具有挑战性的,因为人类运动本质上是多模式的:考虑到人类运动路径的历史,未来人们可以采取许多社会上可行的移动方式。我们通过结合序列预测生成对抗网络的工具来解决这个问题:使用一个周期性的序列到序列(sequence-to-sequence)模型观察运动历史并预测未来的行为,使用一个新颖的池化机制来聚集人们之间的信息。我们通过对抗训练来预测可信的未来行为,并使用新型的多样性损失函数来鼓励多样化预测。通过对多个数据集的实验,我们证明我们的方法在准确性、多样性、避免碰撞和计算复杂性方面优于先前的工作。

1.介绍:

预测行人的运动行为对于自动驾驶汽车或社交机器人等自动移动平台至关重要,这些平台将与人类共享同一个生态系统。人类可以有效地处理复杂的社会互动,这些机器应该也能做到这一点。为此,一项具体而重要的任务如下:给定观察到的行人运动轨迹(例如过去3.2秒的坐标),预测所有可能的未来轨迹(图1)。

由于人类在拥挤场景中运动的固有特性,预测人类的行为是具有挑战性的。

1.人际互动。每个人的动作都取决于周围的人。在人群中穿行时,人类天生具有解读他人行为的能力。联合建模这些依赖关系是一个挑战。

2. 社会可接受性。有些轨迹在物理上是可能的,但在社会上是不可接受的。行人受社会规范的约束,比如让行权或尊重个人空间。将它们形式化并非易事。

3. 多模式。考虑到部分历史,没有单一正确的未来预测。多种发展轨迹是合理的,也是社会可以接受的。

轨迹预测方面的开创性工作已经解决了上述一些挑战。人际关系方面已经通过基于手工特征的传统方法得到了详尽的解决[2,17,41,46]。最近,基于递归神经网络(rnn)的数据驱动技术重新审视了社会可接受性[1,28,12,4]。最后,该问题的多模式方面已经在给定静态场景的路线选择背景下进行了研究(例如,在十字路口走哪条街道[28,24])。Robicquet等[38]研究表明,在拥挤的场景中,行人在温和或激进的导航风格下会有多种导航风格。因此,预测任务需要输出不同的可能结果。

虽然现有方法在解决具体挑战方面取得了很大进展,但它们存在两个局限性:

(1)首先,在做出预测时,他们模拟每个人周边的一个区域。因此,它们在对场景中所有人之间的交互进行建模的时候不具备很高的计算效率(computationally efficient fashion)。

(2)其次,他们倾向于学习“平均行为”,因为常用的损失函数最小化了真实值和预测输出之间的欧氏距离。相反,我们的目标是学习多种“表现优异的行为”,即:,多种的可以被社会所接受的行为轨迹。

为了解决以往工作的局限性,我们建议利用生成模型(recent progress in generative models)的最新进展。生成式对抗网络(GANs)是近年来发展起来的一种用于解决:难以处理的概率计算和行为推断的逼近困难等问题[14]的网络。虽然他们已经被用来产生逼真的信号,如图像[34],我们提出:给定一个可观察的过去状态,使用他们(GAN)来产生多个“社会可接受(socially acceptable)”的轨迹。一个网络(生成器)生成候选对象,另一个(鉴别器)对它们进行评估。对抗性损失(adversarial loss) 使我们的预测模型能够超越 L2损失 的限制,并有可能了解那些能够欺骗鉴别者的“良好行为”的分布。在我们的工作中,这些行为被称为“在拥挤的场景中的 ‘ 社会可接受 ’ 运动轨迹”。

我们提出的GAN是一个RNN编码器-解码器生成器和一个基于RNN的编码器鉴别器(encoder discriminator),具有以下两个新颖之处:

1) 我们引入了多样性损失(variety loss),这鼓励了GAN的生成网络扩展其分布并覆盖可能的路径空间,同时与观察到的输入保持一致(being consistent with the observed input)。

2) 我们提出了一个新的池化机制(pooling mechanism),它学习一个“全局”池化向量,为所有参与场景的人编码细致的线索。

通过对几个公开的真实世界人群数据集的实验,我们展示了最先进的准确性、速度,并证明我们的模型有能力产生各种“社会可接受”的轨迹

2.相关工作

预测人类行为的研究可以分(can be grouped as)为学习预测人与空间的相互作用或人与人的相互作用。前者学习场景特定的动作模式(scene-specific motion patterns) [3, 9, 18, 21, 24, 33, 49],后者模拟场景的动态内容,即行人之间如何相互影响(dynamic content of scenes)。我们工作的重点是后者: 学习预测人与人之间的互动。我们讨论了这方面的现有工作,以及RNN在序列预测和生成模型方面的相关工作。

1.人与人的交互(human-human interaction)

从宏观模型的人群视角(macroscopic models)和微观模型(microscopic models)的个体视角(我们工作的重点)对人类行为进行了研究。微观模型的一个例子是 Helbing和Molnar [17] 对行人行为进行了建模,引力(attractive force)引导他们朝着目标前进,排斥力(repulsive force)鼓励他们避免碰撞。在过去的几十年里,这种方法经常被重新使用 [5, 6, 25, 26, 30, 31, 36, 46]。经济学中流行的工具也被投入使用,如Antonini等人的离散选择框架(discrete choice framework) [2]。Treuille等人 [42]采用连续体动力学,Wang等人 [44],Tay等人 [41]使用高斯过程。这些函数也被用于研究固定群组(stationary groups) [35, 47]。然而,所有这些方法都使用基于相对距离和特定规则的手工制作的能量势(hand crafted energy potentials based on relative distances and specific rules)。相比之下,在过去的两年中,基于RNNs的数据驱动方法(data-driven methods)已经超越上述传统方法。


2.用于序列预测的RNNs(RNNs for sequence prediction)

递归神经网络是一类丰富的动态模型,它将前馈网络扩展到多个领域进行序列生成如语音识别 [7, 8, 15],机器翻译 [8],为图像添加字幕 [20, 43, 45, 39]但这些应用缺乏高层次的时空结构 [29],人们多次尝试使用多个网络来捕获复杂的交互 [1, 10, 40],Alahi等人的 [1]使用一个social pooling 层,模拟附近的行人。在本文的其余部分中,我们证明了使用多层感知器(multi-layer perceptron)(MLP)再进行最大池化(max pooling)在计算上更有效,并且与来自 [1] 的social pooling 表现相近或更好。Lee等人 [28]介绍了一个采用变分自编码器(variational autoencoder)(VAE)的RNN编解码框架从而进行轨迹预测的。然而,他们并没有在拥挤的场景中模拟人与人之间的互动。


3.生成模型(Generative Modeling)

生成模型如变分自编码器 [23]是通过最大化训练数据似然下界(maximize the lower bound of training data likelihood) 来训练的。Goodfellow等人提出了另一种方法,生成对抗网络(GANs) [14],其中训练过程是生成模型(generative model)和判别模型(discriminative model)之间的极小极大博弈(minimax game)。这就克服了逼近难以计算的概率的运算困难。生成模型在超分辨率 [27]、图像到图像转换 [19]和图像合成 [16, 34, 48]等任务中显示出良好的结果,这些任务对于给定的输入具有多个可能的输出。然而,它们在序列生成问题中的应用,如自然语言处理,已经滞后了,因为从这些生成的输出中进行采样并将其提供给鉴别器是一个不可微(non-differentiable)的操作。

3.方法

当人类再人群中进行路径规划的时候会本能地考虑到自己身边的人的状态。我们计划我们的路径,牢记我们的目标,同时也考虑周围人的运动,如他们的运动方向,速度等。然而,在这种情况下,通常存在多个可能的选项。我们需要的模型不仅能够理解这些复杂的人类交互行为(human interactions),而且还能够捕捉各种选项(capture the variety of options)。 目前的方法侧重于预测未来的平均轨迹,所以他们通过最小化到ground truth的 L2 距离,而我们希望预测多个“良好”轨迹。在这个部分,我们首先提出了我们的基于编解码结构的GAN 来解决这些问题,接下来我们展示了我们最新的池化层结构,这是一个模拟人与人之间交互(human-human interaction)的池化层,最终我们引入了我们的多类损失(variety loss)来促使网络基于给定的观测序列可以产生多种不同的未来轨迹。

3.1定义问题(problem definition)

我们的目标是共同推理和预测一个场景中所有智能体的未来轨迹。我们假设我们接收到一个场景中所有人的轨迹作为输入,X = X1, X2,…, Xn,并同时预测所有人未来的轨迹,Y = Y1, Y2,…Yn。行人的输入轨迹i定义为Xi = (x ti, yt i),从时间步长t = 1,…, tobs,和未来的轨迹(地面真相)可以类似地定义为Yi = (x ti, yt i),从时间步长t = tobs + 1,…, tpred。我们用Yi表示预测结果。

3.2 生成对抗网络(generative adversial networks)

由两个相互对立训练的神经网络组成[14]。两个对抗训练模型是:捕获数据分布的生成模型G和估计样本来自训练数据而不是G的概率的判别模型D。生成器G将潜在变量z作为输入,并输出样本G(z)。鉴别器D以一个样本x作为输入,输出D(x)表示它是实数的概率。训练过程类似于具有以下目标函数的二人最小最大博弈:

GANs可以通过向生成器和鉴别器同时提供额外输入c来用于条件模型,从而产生G(z, c)和D(x, c)。

3.3 社交意识 GAN(social-aware GAN)

如第1节所讨论的,轨迹预测是一个多模态问题。生成模型可以与时间序列数据一起用于模拟可能的未来。我们利用这一见解来设计SGAN,使用gan解决问题的多模态(见图2)。我们的模型由三个关键组件组成:生成器(G),池化模块(PM)和鉴别器(D)。G基于编码器-解码器框架,我们通过PM链接编码器和解码器的隐藏状态。G输入Xi,输出预测轨迹Yi。D输入包含输入轨迹Xi和未来预测Yi(或Yi)的整个序列,并将它们分类为“真实/虚假”。

图2:系统概述。我们的模型由三个关键组件组成:生成器(G)、池化模块和鉴别器(D)。G将过去的轨迹Xi作为输入,并将人i的历史编码为Hti。池化模块将所有Hitobs 作为输入,并为每个人输出一个池化向量Pi。解码器根据Hitobs和Pi生成未来的轨迹。D将Treal或Tfake作为输入,并将它们分类为社会可接受或不可接受(参见图3中的PM)。

1.生成器

我们首先使用单层MLP嵌入每个人的位置,以获得固定长度的向量eti。
这些嵌入部分在 t 时刻作为编码器的LSTM单元的输入,引入如下递归式:

其中 ϕ 是一个由ReLU非线性单元的嵌入函数,Wee是一个嵌入的权重。LSTM权重 Wencoder 在一个场景中所有人共享。

简单的对于每一个人使用一个LSTM不能获取人与人之间的交互行为,编码器学习每个单元的状态并存储它们的运动历史。然而,正如Alahi等人所示 [1]。我们需要一个紧凑的表示,它结合了来自不同编码器的信息,以有效地推理有关社会互动。在我们的方法中,我们通过一个池模块(PM)对人与人的交互进行建模。tobs之后,我们把场景中所有人的隐藏状态集合起来,得到每个人的池化张量(pooled tensor) pi,通常情况下,GANs用输入的噪声来产生样本。

我们的目标是创造出与过去一致的未来情景。为了实现这一点,我们通过初始化的隐藏状态来设定生成输出轨迹的条件,如下:

   

其中γ(·)是具有ReLU非线性的多层感知器(MLP), Wc是嵌入权值。关于轨迹预测,我们在两个重要方面偏离了先前的工作:

(1)之前的工作 [1] 使用隐藏状态来预测二元高斯分布的参数。然而,这如何在不可微的情况下,通过采样的反向传播,在训练过程中引入了困难,我们通过直接预测坐标( x ^ i t , y ^ i t ) 来避免这种情况。

(2)“社会”语境一般是作为输入提供的LSTM细胞 [1, 28] 相反,我们只提供一次池化上下文(pooled context)作为解码器的输入。这也为我们提供了在特定时间步长的情况下选择池化的能力,并且与S-LSTM [1] 相比,速度提高了16倍(见表2)。

在如上所述初始化解码器状态后,我们可以得到如下预测:

其中φ(·)是一个以Wed为嵌入权值的具有ReLU非线性的嵌入函数。LSTM的权重用Wdecoder表示,γ是一个MLP。

2.鉴别器。鉴别器由一个单独的编码器组成。具体来说,它将Treal = [Xi, Yi]或Tfake = [Xi, Yi]作为输入,并将它们分类为真/假。我们对编码器的最后一个隐藏状态应用MLP来获得分类分数。理想情况下,鉴别器将学习微妙的社会互动规则,并将不被社会接受的轨迹分类为“假”。

3.损失。除了对抗损失,我们还在预测轨迹上应用L2损失,它测量生成的样本与实际地面真相的距离。

3.4. 池化模块

为了跨多人进行联合推理,我们需要一种机制来在LSTMs之间共享信息。然而,方法应该解决以下几个挑战:

•一个场景中可能有很多人,我们需要一个紧凑的表示,将所有人的信息结合起来。

•分散的人际互动。本地信息并不总是足够的。远处的行人可能会互相碰撞。因此,网络需要对全局配置进行建模。

图3 我们通过图中红色的人来比较我们的池化机制(红色虚线箭头)和社交池化(social-pooling)[1](红色虚线格)之间的差距。 我们的方法计算红色的人和所有其他人之间的相对位置; 这些位置与每个人的隐藏状态连接,由MLP(多层感知机)独立处理,然后汇集元素以计算红人的池化向量 P1, 社交池只考虑网格内的人,并且不能模拟所有人之间的交互。

社交池化 [1]通过提出一个基于网格的池化方案来解决第一个问题。然而,这个人工制作的解决方案速度很慢,并且不能捕获全局上下文。Qi等 [37] 表明,在输入点集合的变换元素上应用一个学习的对称函数可以实现上述性质。如图2所示,这可以通过一个多层向量感知机(MLP)和一个对称函数(我们使用Max-Pooling)传递输入坐标来实现。 池化向量pi需要总结一个人做出决定所需的所有信息。由于我们使用相对坐标来表示平移不变性,因此我们将每个人相对于人i的相对位置增加到池化模块的输入。

3.5. 鼓励产生多样性样本

轨迹预测具有挑战性,因为给定有限的过去历史,模型必须对多种可能的结果进行推理。到目前为止所描述的方法产生了很好的预测,但是这些预测试图在可能有多个输出的情况下产生“平均”预测。此外,我们发现输出对噪声的变化不是很敏感,并且产生了非常相似的预测。

我们提出了一个多样性损失函数,鼓励网络产生不同的样本。对于每个场景,我们通过从N(0,1)中随机抽取z并选择L2意义上的“最佳”预测作为我们的预测,生成k个可能的输出预测。

其中 k是超参数

通过仅考虑最佳轨迹,这种损失促使网络进行“减小错误的两方面预测(hedge the bet)”并覆盖符合过去轨迹的输出空间。 这个损失在结构上类似于“最小化N(MoN)损失[11]”,但据我们所知,这并未在GAN的背景下用于鼓励生成样本的多样性。

表1:各方法跨数据集的定量结果。我们报告了两个误差指标tpred = 8和tpred = 12(8 / 12)时的平均位移误差(ADE)和最终位移误差(FDE)。我们的方法始终优于最先进的S-LSTM方法,尤其适用于长期预测(越低越好)。

3.6 实验细节

在我们的模型中,我们使用LSTM作为解码器和编码器的RNN。编码器的隐藏状态维度为16,解码器为32。我们将输入坐标嵌入为16维向量。我们使用Adam[22]迭代训练生成器和鉴别器,batch size为64,周期为200 epoch,初始学习率为0.001。

4.实验

在本节中,我们在两个公开可用的数据集上评估我们的方法:ETH[36]和UCY[25]。这些数据集由真实世界的人类轨迹组成,具有丰富的人类互动场景。我们将所有数据转换为真实世界的坐标,并每0.4秒进行插值以获得值。总共有5组数据(ETH - 2, UCY3),包含4个不同的场景,包括1536名行人在拥挤的环境中,具有挑战性的场景,如群体行为,人们相互穿越,碰撞避免和群体形成和分散。

评价指标: 与之前的工作[1,28]类似,我们使用两个误差度量:

1.平均位移误差(ADE):在所有预测的时间步长中,地面真实值与我们的预测之间的平均L2距离。

2. 最终位移误差(FDE):在预测周期结束时,预测的最终目的地与真实的最终目的地之间的距离。

基线:我们与以下基线进行比较:

1. 线性:通过最小化最小二乘误差来估计线性参数的线性回归器。

2. LSTM:没有池化机制的简单LSTM。

3. S-LSTM: Alahi等人[1]提出的方法。每个人都通过LSTM建模,在每个时间步使用社会池化层池化隐藏状态。

我们也用不同的控制设置对我们的模型做消融研究。在本节中,我们将我们的完整方法称为SGAN-kVP-N,其中kV表示模型是否使用多样化损失进行训练(k = 1基本上意味着没有多样化损失),P表示使用我们建议的池化模块。在测试时,我们从模型中多次采样,并选择L2意义上的最佳预测进行定量评价。N表示我们在测试时间内从模型中采样的次数。

评价方法:我们采用与[1]相似的评价方法。我们采用留一法,在4个集合上训练,在剩下的集合上测试。我们观察了8步(3.2秒)的轨迹,并给出了8步(3.2秒)和12步(4.8秒)的预测结果。

4.1.定量评价

在表1中,我们比较了我们的方法在不同基线上的两个指标ADE和FDE。正如预期的那样,线性模型只能够对直线路径进行建模,并且在较长的预测(tpred = 12)的情况下做得特别糟糕。LSTM和S-LSTM都比线性基线表现得更好,因为它们可以模拟更复杂的轨迹。然而,在我们的实验中,S-LSTM并不优于LSTM。我们尽了最大的努力来重现实验的结果。[1]在合成数据集上训练模型,然后在真实数据集上进行微调。我们不使用合成数据来训练我们的任何模型,这可能会导致更糟糕的表现。

SGAN-1V-1的性能比LSTM差,因为每个预测样本可以是多个可能的未来轨迹中的任何一个。模型生成的条件输出代表了许多可能不同于地面真值预测的合理的未来预测之一。当我们考虑多个样本时,我们的模型优于基线方法,证实了问题的多模态性质。gan面临模式崩溃问题,其中生成器依赖于生成由鉴别器分配高概率的少量样本。我们发现SGAN-1V-1生成的样本并没有捕捉到所有可能的场景。然而,SGAN-20V-20明显优于所有其他模型,因为品种损失鼓励网络产生不同的样品。尽管我们提出的具有池化层的完整模型表现稍差,但在下一节中我们将展示池化层帮助模型预测更多“社会”可信路径。

速度:在自动驾驶汽车等需要准确预测行人行为的现实环境中,速度对一种方法至关重要。我们将我们的方法与两个基线LSTM和S-LSTM进行比较。一个简单的LSTM执行速度最快,但不能避免碰撞或做出准确的多模态预测。我们的方法比S-LSTM快16倍(见表2)。速度的提高是因为我们没有在每个时间步都进行池化。此外,与需要为每个行人计算占用网格的S-LSTM不同,我们的池化机制是一个简单的MLP,然后是最大池化。在实际应用中,我们的模型可以在S-LSTM进行1次预测的同一时间内快速生成20个样本。

 

表2:与S-LSTM的速度(秒)比较。与S-LSTM相比,我们获得了16倍的加速,允许我们在相同的时间内绘制16个样本- S-LSTM进行单个预测。与S-LSTM不同的是,我们不会在每个时间步执行池化,这会导致明显的减速带而不影响准确性。所有方法均在Tesla P100 GPU上进行基准测试。

评价多样性的效果:有人可能会问,如果我们只是从我们的模型中提取更多的样本,而没有品种损失,会发生什么?我们比较了SGAN-1V-N和SGAN-NV-N的性能。需要提醒的是,SGAN-NV-N是指在测试过程中抽取N个样本,以k = N的品种损失训练的模型。如图4所示,在所有数据集上,简单地从训练好的模型中提取更多的样本而不损失品种,并不能提高准确性。相反,当我们增加k时,我们看到了显著的性能提高,当k = 100时,模型的平均性能提高了33%。

 

图4:多样性损失的影响。对于SGAN-1V-N,我们训练单个模型,在训练时为每个序列绘制一个样本,在测试时绘制N个样本。对于SGAN-NV-N,我们用我们的多样性损失训练了几个模型,在训练和测试期间使用N个样本。多样性损失训练显著提高准确性。

4.2. 定性评价

在多智能体(人)场景中,必须对一个人的行为如何影响其他人的行为进行建模。传统的活动预测和人类轨迹预测的方法主要集中在手工制作的能量势模型的吸引力和排斥力,以模拟这些复杂的相互作用。我们使用一种纯粹的数据驱动方法,通过一种新的池化机制来模拟人与人之间的互动。人类在与其他人一起行走时,会考虑到他们的个人空间、碰撞的潜在可能性、最终目的地和自己过去的行为来规划自己的路径。在本节中,我们首先评估池化层的效果,然后分析我们的网络在三种常见的社交场景中做出的预测。尽管我们的模型对场景中的所有人进行联合预测,但为了简单起见,我们只显示了一个子集的预测。我们用图中颜色的首字母来指代场景中的每个人(例如,人B(黑色),人R(红色)等等)。同样为了简单起见,我们将SGAN- 20vp -20称为SGAN- p,将SGAN- 20v -20称为SGAN。

4.2.1池化Vs非池化

在定量指标上,两种方法的表现相似,SGAN略优于SGAN- p(见表1)。然而,定性地说,我们发现,汇集强制全球一致性和符合社会规范。我们比较了SGAN和SGAN- p在四种常见的社会互动场景中的表现(参见图5)。我们想强调的是,尽管这些场景是综合创建的,但我们使用的是在真实世界数据上训练过的模型。此外,创建这些场景是为了评估模型,在我们的设计中没有任何东西使这些场景变得特别容易或困难。对于每个设置,我们绘制了300个样本,并绘制了轨迹的近似分布以及平均轨迹预测。

场景1和场景2描述了我们的模型通过改变方向来避免碰撞的能力。在两个人朝同一方向前进的情况下,汇集使模型能够预测一种社会接受的方式,即向右行驶的权利。然而,SGAN预测会导致碰撞。同样,与SGAN不同的是,SGAN- p能够模拟群体行为并预测回避,同时保留情侣一起行走的概念(场景2)。

人类也倾向于改变速度以避免碰撞。场景3描述了一个人G走在另一个人B后面,尽管速度更快。如果它们继续保持自己的速度和方向,它们就会相撞。我们的模型预测G从右边超车。SGAN无法预测社会可接受的路径。在场景4中,我们注意到模型预测了人B减速并屈服于人G。

图5:在四种避碰场景下,我们的模型没有池化(SGAN,上)和有池化(SGAN- p,下)的比较:两个人相遇(1),一个人遇到一个群体(2),一个人在另一个人后面(3),两个人以一个角度相遇(4)。对于每个例子,我们从模型中抽取300个样本,并可视化它们的密度和平均值。由于池化,SGAN-P预测了避免碰撞的社会可接受的轨迹。

4.2.2 pool in Action

我们考虑了三种真实的场景,人们不得不改变他们的路线来避免碰撞(见图6)。

行人合并:(第一行)在走廊或道路上,来自不同方向的人通常会交汇并走向一个共同的目的地。人们用各种方法避免碰撞,同时继续前往目的地。例如,一个人可能会放慢速度,稍微改变他们的路线,或者根据环境和周围其他人的行为结合使用这两种方法。我们的模型能够预测一个人在速度和方向上的变化,从而有效地驾驭一种情况。例如,模型预测要么B减速(col 2),要么B和R都改变方向以避免碰撞。最后一个预测(col 4)特别有趣,因为该模型预测了人物R的突然转向,但也预测了人物B的反应明显放缓;从而做出全球一致的预测。

群体避免:(第二行)人们在朝相反方向移动时互相躲避是另一种常见的情况。这可以以各种形式表现出来,比如一个人躲着一对夫妇,一对夫妇躲着另一对夫妇等等。为了在这种情况下做出正确的预测,一个人需要提前计划,并把目光投向邻近地区之外。我们的模型能够识别人们在群体中移动,并模拟群体行为。该模型预测了任何一组的方向变化,作为避免碰撞的一种方式(col 3,4)。与图5相反,尽管在这种可能导致碰撞的特定情况下,惯例可能是给右边让路。因此,我们的模型可以预测哪对夫妇会向左边让步。

行人跟随:(第三行)另一个常见的场景是一个人走在别人后面。一个人要么想保持速度,要么想超过前面的人。我们想提请大家注意这种情况与现实生活中的情况之间的细微差别。在现实中,一个人的决策能力受到其视野的限制。相比之下,我们的模型在池化时可以访问场景中所有涉及的人的地面真实位置。这在一些有趣的案例中得到了体现(见图3)。该模型了解到,人R在人B后面,并且移动得更快。因此,它预测B通过改变方向让路,而R保持他们的方向和速度。该模型还能够预测超车(地面真实)。

图6:来自我们模型的不同预测的例子。每一行显示一组不同的观测轨迹;列显示了我们模型中每个场景的四个不同样本,它们展示了不同类型的社会可接受行为。BEST是最接近基本事实的样本;在SLOW和FAST样本中,人们改变速度以避免碰撞;在DIR样本中,人们改变方向以避开彼此。我们的模型以数据驱动的方式学习这些不同的回避策略,并共同预测场景中所有人的全球一致和社会可接受的轨迹。我们还在补充材料中展示了一些失效案例。

4.3. 潜在空间结构

在这个实验中,我们试图了解潜在空间 z 的景观。在学习到的流形上行走可以让我们深入了解模型如何生成不同的样本。理想情况下,人们可以期望网络在潜在空间中强加某种结构。我们发现潜在空间中的某些方向与方向和速度相关(图 7)。

图 7:潜空间探索。潜在流形中的某些方向与方向(左)和速度(右)相关联。观察相同的过去,但沿不同方向改变输入 z,会导致模型预测出平均向右/向左或快/慢的轨迹。
                 

5. 结论

在这项工作中,我们解决了人与人互动建模和场景中所有人的联合轨迹预测问题。我们提出了一种新颖的基于 GAN 的轨迹预测编码器-解码器框架,以捕捉未来预测问题的多模态性。我们还提出了一种新颖的池化机制,使网络能够以纯数据驱动的方式学习社会规范。为了鼓励预测样本的多样性,我们提出了一个简单的多样性损失,该损失与汇集层相结合,可鼓励网络生成全局一致、符合社会规范的多样性样本。我们在几个必须遵守社会规范的复杂现实场景中展示了我们方法的有效性。

  • 30
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值