摘要:
如果自动移动平台(例如自动驾驶汽车和社交机器人)要在以人为中心的环境中导航,那么了解人类运动行为对于自动移动平台至关重要。这是具有挑战性的,因为人类运动本质上是多模式的:考虑到人类运动路径的历史,未来人们可以采取许多社会上可行的移动方式。我们通过结合序列预测和生成对抗网络的工具来解决这个问题:使用一个周期性的序列到序列(sequence-to-sequence)模型观察运动历史并预测未来的行为,使用一个新颖的池化机制来聚集人们之间的信息。我们通过对抗训练来预测可信的未来行为,并使用新型的多样性损失函数来鼓励多样化预测。通过对多个数据集的实验,我们证明我们的方法在准确性、多样性、避免碰撞和计算复杂性方面优于先前的工作。
1.介绍:
预测行人的运动行为对于自动驾驶汽车或社交机器人等自动移动平台至关重要,这些平台将与人类共享同一个生态系统。人类可以有效地处理复杂的社会互动,这些机器应该也能做到这一点。为此,一项具体而重要的任务如下:给定观察到的行人运动轨迹(例如过去3.2秒的坐标),预测所有可能的未来轨迹(图1)。
由于人类在拥挤场景中运动的固有特性,预测人类的行为是具有挑战性的。
1.人际互动。每个人的动作都取决于周围的人。在人群中穿行时,人类天生具有解读他人行为的能力。联合建模这些依赖关系是一个挑战。
2. 社会可接受性。有些轨迹在物理上是可能的,但在社会上是不可接受的。行人受社会规范的约束,比如让行权或尊重个人空间。将它们形式化并非易事。
3. 多模式。考虑到部分历史,没有单一正确的未来预测。多种发展轨迹是合理的,也是社会可以接受的。
轨迹预测方面的开创性工作已经解决了上述一些挑战。人际关系方面已经通过基于手工特征的传统方法得到了详尽的解决[2,17,41,46]。最近,基于递归神经网络(rnn)的数据驱动技术重新审视了社会可接受性[1,28,12,4]。最后,该问题的多模式方面已经在给定静态场景的路线选择背景下进行了研究(例如,在十字路口走哪条街道[28,24])。Robicquet等[38]研究表明,在拥挤的场景中,行人在温和或激进的导航风格下会有多种导航风格。因此,预测任务需要输出不同的可能结果。
虽然现有方法在解决具体挑战方面取得了很大进展,但它们存在两个局限性:
(1)首先,在做出预测时,他们模拟每个人周边的一个区域。因此,它们在对场景中所有人之间的交互进行建模的时候不具备很高的计算效率(computationally efficient fashion)。
(2)其次,他们倾向于学习“平均行为”,因为常用的损失函数最小化了真实值和预测输出之间的欧氏距离。相反,我们的目标是学习多种“表现优异的行为”,即:,多种的可以被社会所接受的行为轨迹。
为了解决以往工作的局限性,我们建议利用生成模型(recent progress in generative models)的最新进展。生成式对抗网络(GANs)是近年来发展起来的一种用于解决:难以处理的概率计算和行为推断的逼近困难等问题[14]的网络。虽然他们已经被用来产生逼真的信号,如图像[34],我们提出:给定一个可观察的过去状态,使用他们(GAN)来产生多个“社会可接受(socially acceptable)”的轨迹。一个网络(生成器)生成候选对象,另一个(鉴别器)对它们进行评估。对抗性损失(adversarial loss) 使我们的预测模型能够超越 L2损失 的限制,并有可能了解那些能够欺骗鉴别者的“良好行为”的分布。在我们的工作中,这些行为被称为“在拥挤的场景中的 ‘ 社会可接受 ’ 运动轨迹”。
我们提出的GAN是一个RNN编码器-解码器生成器和一个基于RNN的编码器鉴别器(encoder discriminator),具有以下两个新颖之处:
1) 我们引入了多样性损失(variety loss),这鼓励了GAN的生成网络扩展其分布并覆盖可能的路径空间,同时与观察到的输入保持一致(being consistent with the observed input)。
2) 我们提出了一个新的池化机制(pooling mechanism),它学习一个“全局”池化向量,为所有参与场景的人编码细致的线索。
通过对几个公开的真实世界人群数据集的实验,我们展示了最先进的准确性、速度,并证明我们的模型有能力产生各种“社会可接受”的轨迹
2.相关工作
预测人类行为的研究可以分(can be grouped as)为学习预测人与空间的相互作用或人与人的相互作用。前者学习场景特定的动作模式(scene-specific motion patterns) [3, 9, 18, 21, 24, 33, 49],后者模拟场景的动态内容,即行人之间如何相互影响(dynamic content of scenes)。我们工作的重点是后者: 学习预测人与人之间的互动。我们讨论了这方面的现有工作,以及RNN在序列预测和生成模型方面的相关工作。
1.人与人的交互(human-human interaction)
从宏观模型的人群视角(macroscopic models)和微观模型(microscopic models)的个体视角(我们工作的重点)对人类行为进行了研究。微观模型的一个例子是 Helbing和Molnar [17] 对行人行为进行了建模,引力(attractive force)引导他们朝着目标前进,排斥力(repulsive force)鼓励他们避免碰撞。在过去的几十年里,这种方法经常被重新使用 [5, 6, 25, 26, 30, 31, 36, 46]。经济学中流行的工具也被投入使用,如Antonini等人的离散选择框架(discrete choice framework) [2]。Treuille等人 [42]采用连续体动力学,Wang等人 [44],Tay等人 [41]使用高斯过程。这些函数也被用于研究固定群组(stationary groups) [35, 47]。然而,所有这些方法都使用基于相对距离和特定规则的手工制作的能量势(hand