Social GAN全文翻译

社交GAN:生成性对抗网络的社会可接受轨迹

 

如果自主移动平台(如自动驾驶汽车和社交机器人)要在以人为中心的环境中导航,那么理解人类运动行为是至关重要的。这是具有挑战性的,因为人体运动本质上是多模态的:考虑到人类运动路径的历史,有许多社会上可行的方式,人们可以在未来移动。我们通过结合来自序列预测和生成性对抗网络的工具来解决这个问题:循环的序列到序列模型观察运动历史并预测未来的行为,使用一种新颖的池机制来跨人聚合信息。我们通过对反复出现的鉴别器进行敌意训练来预测社会上可能的未来,并鼓励采用新颖的品种损失进行多样化的预测。通过在几个数据集上的实验,我们证明了我们的方法在准确性、多样性、冲突避免和计算复杂性方面优于先前的工作。

 

图1:两个行人想要避开对方的场景的图解。有许多可能的方法可以避免潜在的冲突。我们提出了一种方法,在给定相同的观察历史的情况下,在拥挤的场景中预测多个社会可接受的输出。

 

  1. Introduction

预测行人的运动行为对于自动驾驶汽车或社交机器人等将与人类共享同一生态系统的自动移动平台至关重要。人类可以有效地协商复杂的社会互动,而这些机器也应该能够做到这一点。为此,一项具体而重要的任务如下:给定观察到的行人运动轨迹(过去3.2秒的坐标),预测所有可能的未来轨迹(图1)。

 

由于拥挤场景中人体运动的固有特性,预测人类的行为具有挑战性:

  1. 人际关系。每个人的运动取决于他们周围的人。当在人群中导航时,人类具有天生的阅读他人行为的能力。对这些依赖关系进行联合建模是一项挑战。
  2. 社会接受。有些轨迹在物理上是可能的,但在社会上是不可接受的。行人受社会规范的支配,如让路或尊重个人空间。将它们形式化并不是无关紧要的。
  3. 多模态。考虑到部分历史,没有一个正确的未来预测。多重轨迹是合理的,也是社会接受的。

 

在轨迹预测方面的开创性工作已经解决了上述一些挑战。基于手工特征的传统方法已经穷尽地解决了人际关系方面的问题[2,17,41,46]。最近,基于递归神经网络(RNNs)的数据驱动技术重新审视了社会可接受性[1,28,12,4]。最后,在给定静态场景(例如,在交叉口走哪条街[28,24])的路线选择的背景下,研究了问题的多模态方面。Robicquet等人。[38]已经表明行人在给定温和或侵略性导航风格的拥挤场景中具有多种导航风格。因此,预测任务需要输出不同的可能结果。

 

虽然现有方法在应对具体挑战方面取得了很大进展,但它们存在两个限制。首先,在做出预测时,他们会在每个人周围建立一个本地邻里关系模型。因此,他们不具有以计算高效的方式对场景中所有人之间的交互进行建模的能力。其次,他们倾向于学习“平均行为”,因为常用的损失函数最小化了地面真相和预测输出之间的欧几里德距离。相反,我们的目标是学习多种“良好行为”,即多种社会可接受的轨迹

 

为了解决以前工作的局限性,我们建议利用生成模型的最近进展。生成性对抗网络(GANS)最近已经被开发出来,以克服在近似难以处理的概率计算和行为推理中的困难[14]。虽然它们已被用于产生照片级真实感信号,如图像[34],但我们建议使用它们在给定观察到的过去的情况下生成多个社会可接受的轨迹。一个网络(生成器)生成候选,另一个(鉴别器)评估它们。对抗性损失使我们的预测模型能够超越L2损失的限制,并潜在地学习可以欺骗鉴别器的“良好行为”的分布。在我们的工作中,这些行为被称为拥挤场景中社会接受的运动轨迹。

 

我们提出的GaN是一个RNN编解码器生成器和一个基于RNN的编码器鉴别器,具有以下两个新颖之处:

  1. 我们引入了一种多样性损耗,它鼓励我们的GaN的生成网络扩展其分布并覆盖可能路径的空间,同时与观察到的输入保持一致。
  2. 我们提出了一种新的池机制,该机制学习“全局”池向量,该矢量对场景中涉及的所有人的微妙线索进行编码。

 

我们将我们的模式称为“社交GAN”。通过在几个公开的真实世界人群数据集上的实验,我们展示了最先进的精确度和速度,并证明了我们的模型具有生成各种社会可接受的轨迹的能力。

 

  1. Related Work

预测人类行为的研究可以归类为学习预测人与空间的相互作用或人与人的相互作用。前者学习场景特定的运动模式[3,9,18,21,24,33,49]。后者对场景的动态内容进行建模,即行人如何彼此交互。我们工作的重点是后者:学习预测人与人的互动。我们讨论了这个主题上的现有工作以及RNN中用于序列预测和生成模型的相关工作。

 

人与人的互动。宏观模型中的人群视角或微观模型中的个体视角(我们工作的重点)已经对人类行为进行了研究。微观模型的一个例子是Helbing和Molnar的“社会力”[17],它用吸引力引导行人朝目标前进,而斥力则鼓励避免碰撞。在过去的几十年中,这种方法经常被重新审视[5,6,25,26,30,31,36,46]。经济学中流行的工具也被使用,例如Antonini等人的Discrete Choice框架。艾尔。[2]。Treuille et.。艾尔。[42]使用连续介质动力学和Wang等。艾尔。[44]、Tay et.。艾尔。[41]使用高斯过程。这样的函数也被用于研究固定基团[35,47]。然而,所有这些方法都使用基于相对距离和特定规则的手工制作的能量势。相反,在过去的两年中,基于RNN的数据驱动方法被用来超越上述传统方法。

 

用于序列预测的RNNs。递归神经网络是一类丰富的动态模型,它扩展了前馈网络在不同领域中的序列生成,如语音识别[7,8,15],机器翻译[8]和图像字幕[20,43,45,39]。然而,它们缺乏高层次和时空结构[29]。已经进行了几次尝试来使用多个网络来捕获复杂的相互作用[1,10,40]。Alahi等人。[1]使用模拟附近行人的社交池图层。在本文的其余部分中,我们表明使用多层感知器(MLP),然后

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值