SoPhie

最新推荐文章于 2022-09-13 22:04:10 发布

籽鼠

最新推荐文章于 2022-09-13 22:04:10 发布

阅读量683

点赞数 2

Sophie：一种用于预测符合社会和物理约束的路径的细心GAN

本文研究了场景中多个交互Agent的路径预测问题，这是自动驾驶汽车和社交机器人等许多自主平台的关键一步。我们提出了Sophie；一个基于生成性对抗网络(GAN)的可解释框架，它利用了两个信息源，即一个场景中所有代理的路径历史和使用场景图像的场景上下文信息。要预测座席的未来路径，必须利用物理和社会信息。以前的工作没有成功地联合建模物理和社会的相互作用。我们的方法将社会注意机制与物理注意相结合，帮助模型学习在大场景中的哪里看，并提取与路径相关的图像中最突出的部分。然而，社交注意力组件跨不同的代理交互聚集信息，并从周围邻居中提取最重要的轨迹信息。Sophie还利用GaN来生成更逼真的样本，并通过对其分布进行建模来捕捉未来路径的不确定性质。所有这些机制都使我们的方法能够为代理预测社会和物理上可行的路径，并在几个不同的轨迹预测基准上实现最先进的性能。

Introduction

当人们在公园或拥挤的商场里导航时，出于社会礼仪的考虑，他们会遵循常识规则来调整自己的路径。同时，他们能够适应物理空间和道路上的障碍。与物理地形以及与其周围的人类互动绝不是一件容易的任务；因为它需要：

·遵守环境的物理限制。为了能够在可行的地形上行走并避开障碍物或类似的物理约束，我们必须处理我们周围环境的局部和全局空间信息，并关注我们周围的重要元素。例如，当到达一条弯曲的路径时，我们更多地关注曲线而不是环境中的其他约束，我们称之为物理注意。

·预测他人的动作和社会行为。为了避免与他人发生冲突，扰乱他们的个人空间，或打断一些社交互动(例如握手)，我们必须很好地理解他人的动作和环境的社会规范，并相应地调整我们的道路。我们应该考虑到一些代理人对我们的决定有更大的影响。例如，当我们走在走廊上时，我们更多地关注我们前面的人，而不是我们后面的人，我们称之为社会关注。对这些社交互动进行建模是一项不平凡的任务。

·找到多条可行路径。为了到达目的地，我们的道路往往存在不止一种选择，这就是人类运动的模糊性。事实上，我们通往目的地的可穿越路径有一个范围[21，13，8，1]。

在本文中，我们旨在解决一组代理的未来路径预测问题。现有的方法遵循不同的策略来解决这个问题。一些方法仅依靠场景上下文为每个代理预测可行路径。例如，[3]中的方法使用先前创建的对场景特定的观察到的运动模式进行编码的导航地图，从补丁特定的描述符中学习所有代理的动态模式。在[14]中，该方法从俯视图像中学习场景上下文，以便预测每个代理的未来路径。[23]将注意力机制应用于输入图像，以便突出每个代理的未来路径的重要区域。然而，所有上述方法都忽略了其他代理状态对预测目标代理未来路径的影响。

与使用场景上下文信息的路径预测并行，最近已经提出了几种方法来对场景中所有代理之间的交互进行建模，以便预测每个目标代理的未来轨迹[5，6]。虽然这些方法在解决这一具有挑战性的问题方面显示了有希望的进展，但它们仍然忽略了作为关键信息的场景上下文。此外，这些方法的不足之处在于，它们不是将行人未来的运动视为位置的分布，而是只预测一条路径，这通常最终会优化“平均行为”，而不是学习困难的约束。为了解决第二个问题，[1，14，26]引入了能够生成多条可行路径的模型。然而，这些模型中的大多数仅在非常有限的搜索空间中纳入了少数相邻代理的影响。最近，[8]提出了一种考虑场景中所有代理影响的GAN模型。

在这项工作中，我们提出了一种基于GAN的专注的Sophie方法，它可以考虑来自场景上下文和代理的社会交互的信息，以便预测每个代理的未来路径。受最近注意力网络[25]和Gans[7]在不同现实世界问题中的成功影响，我们提出的框架同时使用这两种机制来解决具有挑战性的轨迹预测问题。我们使用视觉注意模型来处理静态场景上下文，同时使用一种新的注意模型来观察其他代理的动态轨迹。然后，应用基于LSTM的GaN模块来学习可靠的生成模型，该模型表示未来每个代理在一系列似是而非和现实的路径上的分布。

图1.索菲预测的轨迹在社会上和物理上都是可信的。为了实现这一点，我们的方法结合了场景中所有代理的影响以及场景上下文。

据我们所知，以前没有其他工作同时解决上述所有问题。Sophie生成多个社会敏感和物理上可信的轨迹，并在多个轨迹预测基准上实现最先进的结果。概括起来，本文的主要贡献如下：

·我们的模型结合Agent之间的社会交互使用场景上下文信息，以预测每个Agent的未来路径。

·提出了一种更可靠的特征提取策略来对Agent之间的交互进行编码。

·我们引入了两种注意机制，与基于LSTM的GaN相结合，以生成更准确且可解释的社会和物理可行路径。

·多轨迹预测基准的最新结果。

Related Work

近年来，弹道预测任务取得了许多进展。以前的许多关于轨迹预测的研究要么专注于物理环境对代理路径的影响(代理-空间交互)，并学习场景特定的特征来预测未来路径[23]，要么专注于社会交互的影响(动态代理现象)，并建模受其他代理行为影响的代理的行为[1，8]。很少有作品试图将轨迹和场景线索结合起来[14]。

Agent-Space Models. 这种模型主要利用场景信息，例如，汽车倾向于在车道之间行驶，或者人类倾向于避开长凳等障碍物。Morris等人。[19]对时空模式进行聚类，并使用隐马尔可夫模型对每个组进行建模。Kitani等人。[13]使用隐变量马尔可夫决策过程来模拟人与空间的相互作用，并推断行人的可行走路径。最近，Kim等人。[12]，训练一个单独的递归网络，每个未来时间步长一个，以预测附近汽车的位置。Ballan等人。[3]引入动态贝叶斯网络来建模来自先前所见模式的运动依赖性，并通过在相似设置之间传递知识来将其应用于未见场景。在一项有趣的工作中，Lee等人使用了变分自动编码器。[14]学习静态场景上下文(和小邻域中的代理)，并相应地对生成的轨迹进行排序。Sadeghian等人。[23]，也使用俯视图像并学习基于静态场景上下文预测轨迹。我们的工作类似于[23]，因为我们都使用注意的递归神经网络来预测考虑物理环境的轨迹；尽管如此，我们的模型能够考虑到其他周围的代理，并且能够使用GaN模块生成多个合理的路径。

Agent-Agent模型。用于建模和预测人与人之间交互的传统模型使用“社会力量”来捕捉人类运动模式[9，17，27，20，2，21]。这些模型的主要缺点是需要手工创建规则和功能，限制了它们超越抽象级别和领域专家进行高效学习的能力。现代具有社会意识的轨迹预测工作通常使用递归神经网络[1，14，6，5，4，11]。Hug等人。[10]提出了一项基于实验的研究，研究了一些RNN模型在社会感知轨迹预测中的有效性。这些方法是相对成功的，然而，这些方法中的大多数只利用了本地交互，而没有考虑到进一步的代理。在最近的一项工作中，Gupta等人。[8]通过使用Gans解决此问题以及座席轨迹可能有多个看似合理的未来这一事实。然而，他们的方法将所有代理对彼此的影响统一对待。相反，我们的方法使用了一种新的注意框架来突出每个目标代理的最重要的代理。

最近的一些方法[14，26，4]在某种程度上将场景和社会因素都纳入了他们的模型中。然而，这些模型只考虑了有限的相邻Agent之间的相互作用，只能为每个Agent生成一条看似合理的路径。我们通过应用更明智的策略来解决所有这些限制，例如1-使用视觉注意力组件来处理场景上下文，并为每个代理突出场景的最显著特征，2-使用社交注意力组件，估计每个代理对目标代理的未来路径预测的贡献量，以及3-使用GAN估计每个代理的可行路径上的分布。我们通过在几个标准轨迹预测数据集上展示最先进的性能来支持我们的主张。

SoPhie

我们的目标是开发一个模型，能够成功地预测一组代理的未来轨迹。为此，每个代理在未来所采取的路由不仅需要受到其自身状态历史的影响，而且还需要受到其他代理的状态以及其路径周围的物理地形的影响。索菲在预测每个代理人的未来轨迹时考虑了所有这些线索。

1. Problem Definition

轨迹预测可以形式化地表述为在给定场景信息和它们过去的状态的情况下，估计所有Agent在未来的状态的问题。在我们的情况下，场景信息作为图像 (例如在时间t的场景的俯视图或角度视图图像)被馈送到模型中。此外，假设每个代理i在时间t的状态是其位置，例如相对于参考的2D坐标，例如图像角或俯视图的世界坐标。因此，N个代理的过去和当前状态由其2D位置的有序集表示为：

式中。在整个论文中，我们使用符号和分别表示所有N个Agent的状态和除目标Agent i之外的所有Agent的状态的集合。我们还使用符号来表示t+τ中的未来状态。因此，对于，在帧t+1和t+T之间，代理i的未来地面真实和预测状态分别表示为和，其中

我们的目的是学习模型W∗的参数，以便预测每个代理在t+1和t+T之间的未来状态，给定时间t的输入图像和直到当前帧t的所有代理的状态，即

其中，模型参数W∗是我们的模型中使用的所有深层神经结构的权重的集合。我们使用反向传播和随机梯度下降来端到端地训练所有权重，通过最小化所有代理的预测和基础真实未来状态之间的损失LGAN。我们将在接下来的部分中详细阐述这些细节。

1. Overall Model

我们的模型由三个关键组件组成，包括：1-特征提取模块，2-注意力模块，3-基于LSTM的GaN模块(图2)。首先，特征提取模块使用卷积神经网络从场景中提取适当的特征，即当前帧处的图像。它还使用LSTM编码器对每个代理的状态和直到当前帧（图2(A))的所有其他代理的状态之间的索引不变但时间相关的特征进行编码。然后，注意模块为下一个模块突出显示输入特征的最重要信息(图2(B))。注意模块由两种注意机制组成，分别称为社会注意和身体注意成分。物理注意力从训练数据中学习场景中的空间(物理)约束，并集中于每个代理的物理上可行的未来路径。同样，社交注意模块学习代理之间的交互以及它们对每个代理未来路径的影响。最后，基于LSTM的GaN模块(图2(C))从注意模块中提取突出显示的特征，为每个代理生成一系列合理和现实的未来路径。更详细地说，LSTM解码器用于预测每个代理在未来的时间依赖状态，即。与GaN类似，还应用鉴别器通过迫使生成器模型产生更逼真的样本(轨迹)来提高生成器模型的性能。在接下来的部分中，我们将详细阐述每个模块。

图2.Sophie体系结构概述。Sophie由三个关键模块组成，包括：(A)特征提取模块，(B)注意力模块，和(C)基于LSTM的GaN模块。

1. Feature extractors

特征提取器模块有两个主要组件，如下所述。为了从图像中提取视觉特征，我们使用了卷积神经网络(CNN)。

在本文中，我们使用VGGnet-19[24]作为CNN(·)，其中其权重Wcnn是通过在ImageNet[22]上进行预训练并对场景分割任务进行微调来初始化的，如[16]中所述。

为了从所有代理的过去轨迹中提取关节特征，我们执行以下步骤。类似于[8]，首先使用LSTM来捕获代理i的所有状态之间的时间依赖性，并将其编码为时间t的高维特征表示，即

其中表示代理i在时间t的编码器LSTM的隐藏状态。此外，为了捕获其他代理状态对代理未来轨迹预测的影响，我们需要从所有代理的编码特征中提取联合特征。然而，这种联合特征不能简单地通过连接它们来创建，因为代理的顺序确实很重要。为了使联合特征置换相对于代理的索引具有不变性，现有方法使用置换不变(对称)函数，例如max[8]。然后，将该联合全局特征与每个代理的特征连接起来，以馈送到状态生成器模块。然而，通过这种方式，所有代理都将具有相同的联合特征表示。此外，置换不变函数(如max)可能会丢弃其输入的重要信息，因为它们可能失去其唯一性。为了解决这两个限制，我们改为定义了一致的排序结构，其中目标代理i的联合特征是通过对其他代理与代理i的距离进行排序来构建的，即

其中πj是根据其他代理到目标代理i的距离排序的其他代理的索引。在此框架中，每个代理i具有其自己的唯一联合(社会)特征向量。我们还使用排序作为置换不变函数，其中排序的参考是目标代理I和其他代理之间的欧几里德距离。请注意，排序函数与max相比是有利的，因为它可以保持输入的唯一性。为了处理可变数量的代理，我们设置最大代理数量(N=Nmax)，如果当前帧中不存在相应的代理，则使用虚拟值作为特征。

1. Attention Modules

类似于人们更关注接近的障碍，即将到来的转弯和走向它们的人，而不是建筑物或它们后面的人，我们希望模型更关注场景的显著区域和更相关的代理，以便预测每个代理的未来状态。为了实现这一点，我们使用两个独立的软注意模块，类似于[25]，用于物理和社交特征。

物理注意这个注意模块的输入是GAN模块中解码器LSTM的隐藏状态，以及从图像中提取的视觉特征。注意，解码器LSTM的隐藏状态具有用于预测代理的未来路径的信息。并且该模块从训练数据中学习场景中的空间(物理)约束。因此，输出将是上下文向量，其集中于每个代理的可行路径。

这里，Wph是物理注意模块的参数，表示解码器LSTM在时间t对于代理i的隐藏状态。

社交注意类似于物理关注模块，联合特征向量与用于第i个代理的解码器LSTM的隐藏状态一起被馈送到具有参数Wso的社交注意模块，以获得用于第i个代理的社交上下文向量。这个向量突出了当预测代理i的轨迹时，哪些其他代理是最重要的。

我们对和使用类似于[25]的软注意，这是可区分的，并且整个体系结构可以通过反向传播进行端到端的训练。社会注意和物理注意聚集了所有涉及的代理和物理地形的信息，以处理在拥挤地区建模所有代理的交互的复杂性，同时增加了我们的预测的可解释性。这也以一种有用的方式抑制了输入数据的冗余，允许预测模型将重点放在重要特征上。我们的实验在表1中显示了我们的注意力成分的贡献

1. LSTM based Generative Adversarial Network

3.5.。基于LSTM的生成式对抗性网络

在本节中，我们提出了基于LSTM的生成性对抗网络(GAN)模块，该模块将每个Agent i的社会和物理上下文向量和作为输入，并输出符合社会和物理约束的候选未来状态。大多数现有的轨迹预测方法使用地面真实和预测之间的L2范数损失来估计未来状态[23]。通过使用L2损失，网络仅学习为每个代理预测一条未来路径，直观地讲，该路径是每个代理的所有可行未来路径的平均值。相反，在我们的模型中，我们使用GaN来学习和预测所有可行的未来路径上的分布。

GAN由两个相互竞争的网络、生成器和鉴别器组成。训练生成器以学习路径的分布，并为代理生成可能的未来路径的样本，而鉴别器学习区分所生成的路径的可行性或不可行性。这些网络在双人最小-最大博弈框架中同时训练。在本文中，类似于[8]，我们使用两个LSTM，一个解码器LSTM作为生成器，一个分类器LSTM作为鉴别器，来估计时间相关的未来状态

生成器(G)我们的生成器是一个解码器LSTM，LSTMdec(·)。类似于条件GaN[18]，我们生成器的输入是从多变量正态分布采样的白噪声向量z，而物理和社会上下文向量是它的条件。我们简单地将噪声矢量z和这些上下文矢量连接起来作为输入，即。因此，每个代理的生成的τTH未来状态的样本是通过以下方式获得的：