【多目标轨迹预测】DESIRE: Distant Future Prediction in Dynamic Scenes with Interacting Agents（2017 翻译+笔记）-CSDN博客

DESIRE提出了一个深度随机IOC RNN 编码器--解码器框架，（IOC，逆最优控制器），用于预测动态环境中多个智能体交互的未来轨迹。预测方式：1）给定相同的上下文，未来可能会有所不同，考虑预测未来的多模态性；2）预见未来潜在的结果并基于这个结果做出战略性的预测；3）从过去的运动历史和场景上下文以及智能体之间的交互进行推理。这是一个端到端的模型。该模型首先使用条件变分自动编码器获得一组不同的假设未来预测样本，这些样本由后面的 RNN 评分回归模块进行排序和细化。通过考虑累积的未来奖励对样本进行评分，这可以实现类似于 IOC 框架的更好的长期战略决策。RNN 场景上下文融合模块联合捕获过去的运动历史、语义场景上下文和多个代理之间的交互。反馈机制迭代排名和细化以进一步提高预测准确性。

1 简介

(a) 驾驶场景：白色面包车可能会向左或向右转向，同时试图避免与其他动态智能体发生碰撞。 DESIRE 通过处理未来预测的多模态，同时考虑到一组丰富的静态和动态场景上下文，产生准确的未来预测（显示为蓝色路径）。 (b) DESIRE 生成一组多样化的假设预测样本，然后通过深度 IOC 网络对它们进行排序和细化。

动机：在常见的交通复杂路口场景中，交通参与者的未来是不确定的，但现有的很多方法采用确定性方法，并不考虑他们之间的交互，场景上下文等限制

方法：DESIRE解决了上述问题，其关键在于模型同时：1）产生不同的假设来反映未来合理的分布；2）考虑多智能体动态交互以及场景上下文；3）考虑长期的反馈，对假设进行排序和细化。

将场景建模为由语义元素（车道等）以及动态参与者（行人等）组成，静态的和移动的观察者被视为一个智能体的实例。本文定义预测的问题：智能体的未来轨迹仅仅依赖于对场景过去状态的观察，场景状态是指从传感器获得的图像或者其他数据形式的智能体的历史轨迹以及上下文信息。这个问题被建模为最大化预测的潜在未来汇报的优化问题，在一个优化框架中解决。

方法提出的新机制

pic.2 所提出的预测框架 DESIRE 的概述。首先，DESIRE 通过基于 CVAE 的 RNN 编码器-解码器（样本生成模块）生成多个似是而非的预测样本 $\hat{Y}$ 。然后下面的模块按照 IOC 框架顺序为每个时间步的预测样本分配奖励，并学习位移向量 Δ $\hat{Y}$ 以回归预测假设（排名和细化模块）。回归的预测样本通过迭代反馈进行细化。最终的预测是具有最大累积未来奖励的样本。通过蓝色模块路径的流动仅在训练阶段可用。

多样化的样本生成

3.1节提出了中CAVE（条件变分自动编码器）框架来学习采样模型，CAVE通过历史轨迹数据，产生一组多样化的预测假设来捕捉未来空间的多模态性。CAVE引入了一个隐变量来解释未来的不确定性，和编码过去历史轨迹的RNN相结合，使用另一个RNN来生成假设。

基于IOC的排名与细化

3.2节提出了一个排序模块，可以同时结合场景上下文和交互，确定最可能的假设。由于最优策略很难确定多个智能体在何处做出相互依赖的战略选择，因此制定排名目标来考虑类似于逆最优控制 (IOC) 的潜在未来回报。这有利于从有限的训练数据中进行推广。这个模块在多任务框架中进行训练，对预测样本进行基于回归的细化，在测试阶段，多次迭代以获得未来轨迹更加精确的改进。

场景上下文的融合

3.3节提出了SCF（场景上下文融合），聚合利用CNN编码的智能体和场景上下文的交互，（这里是智能体之间以及智能体与场景之间的交互）。融合信息被嵌入到上述RNN评分模块中，然后根据上下文信息产生激励。

特性

DESIRE是通用的预测框架，两个应用：自动驾驶交通场景理解和空中视角行为预测。

可拓展性：使用深度学习而不是手工制作的特征可以实现端到端的训练，并且可以轻松整合由过去的动作、场景上下文和多个智能体之间的交互产生的多个线索。

多样性：深度生成模型 (CVAE) 的随机输出与对过去观察结果的 RNN 编码相结合，以生成多个预测假设，这些假设可以使未来预测中固有的模糊性和多模态产生幻觉。

准确性：基于 IOC 的框架为采样轨迹积累了长期的未来奖励，基于回归的细化模块学习估计轨迹的变形，从而对未来进行更准确的预测。

2 相关工作

经典方法

卡尔曼滤波器 [18]、线性回归 [29] ，非线性高斯过程回归模型 [49、33、34、48]、自回归模型 [2] 和时间序列分析 [32]。

经典方法的限制

不考虑智能体之间的交互，不适用于复杂的交通环境中。

用于路径预测的 IOC

[23] 使用逆最优控制 (IOC) ，[1, 52] 逆强化学习 (IRL) 恢复人类偏好（即奖励函数）以预测中行人的合理路径，而 [26] 采用 IOC 和提出一个动态奖励函数来解决环境中的变化以进行顺序路径预测；结合深度神经网络，深度 IOC/IRL 已被提出来学习非线性奖励函数，并在机器人控制 [11] 和驾驶 [50] 任务中显示出可喜的结果。

路径预测IOC的限制

基于先验的目标，必须要找到给定的可行路径，从规划和控制的角度看目的地。 [28, 10]通过设定目标集放松了这一设定，但这些目标仍然限于目标任务空间。使用 IOC 恢复的成本函数本质上是静态的，不适合时间分析的预测任务。方法不包含代理之间的交互。

未来预测

[47]提出了一种具有数据驱动的无监督方法的视觉预测框架，但仅限于静态场景； [5] 学习特定场景的运动模式并将其应用于新场景进行运动预测作为知识转移。[30] 以自车视角预测未来位置。但与我们的方法不同的是，这些方法都不能提供时间分析预测。最近，[36] 中收集了一个大型数据集，提出社会敏感性的概念以改进预测模型和多目标跟踪任务。然而，他们基于社会力量 [14] 的模型限制了仅使用参数表示的导航样式。

交互

[24, 25, 3, 31] 中研究了预测多个智能体的动态。[3] 提出了一种新颖的池化层，其中相邻行人的隐藏状态被共享在一起，以在多人之间共同推理。但没有考虑场景上下文，预测效果不好。[24] 提出了一种动态贝叶斯网络来捕捉态势感知，作为行人路径预测的上下文线索，但该模型仅限于行人到车辆和路边的方向和距离。强化学习方面的大量工作，尤其是马尔可夫决策过程 (MDP) 的博弈论推广，解决了多智能体案例，例如 minmax-Q 学习 [27] 和 Nash-Q 学习 [16]。然而，如 [38] 中所述，通常在多智能体设置中的学习本质上比单智能体设置更复杂 [40,39,6]。

用于序列预测的 RNN

RNN在解决序列问题有着出色的表现。我们的方法类似于 [7]，利用编码器-解码器结构嵌入隐藏表示来编码和解码可变长度输入和输出。我们选择在长短期记忆单元上使用门控循环单元 (GRU)而不是(LSTM) [15] ，因为前者更简单但不会降低性能 [8]。然而，尽管 RNN 具有内在的保证，但只有少数作品将 RNN 应用于行为预测任务。 [3] 中使用多个 LSTM 来联合预测人类轨迹，但它们的模型仅限于生成固定长度的轨迹，而我们的模型可以生成可变长度的轨迹。 [17] 中提出了一种融合来自感觉流的信息来预测驾驶员操作的 Fusion-RNN，但他们的模型再次输出确定性和固定长度的预测。

深度生成模型

由于我们的预测模型本质上执行基于后验的概率推断，其中候选样本是基于条件变量（即除了潜在变量之外的过去运动）生成的，我们自然地扩展我们的方法以利用条件变分自动编码器（ CVAE) [21, 41] 在样本生成过程中。在 [46] 中使用 CVAE 从单个图像预测稠密的轨迹像素，而我们专注于预测动态场景中多个交互代理的长期行为。

3 方法

公式

把预测问题当最优化过程，目标是在给定历史轨迹轨迹X=,场景输入，学习多智能体的位置分布,预测未来的分布，其中n是智能体的数量。，分别是智能体i未来和过去的关于t的二维或者三维德位置坐标向量。和分别是未来和过去的最大步长。由于连续和高维 Y 的直接优化是不可行的，因此该方法首先对一组不同的未来预测进行采样，并为每个样本分配一个概率分数以逼近 P (Y|X, I)。

3.1 使用 CVAE 生成不同的样本

为了解决不确定性，我们在 DESIRE 框架内采用了深度生成模型条件变分自动编码器（CVAE）[41]。CVAE 是一个生成模型，可以通过引入隐变量zi学习以Xi为条件的分布 P (Yi|Xi)的输出Yi。它由多个神经网络组成，例如识别网络，（有条件的）先验网络，和生成网络，分别对应网络中参数。隐变量zi的先验是由输入Xi决定的，但是可以将隐变量在统计学上独立于输入Xi，也就是，本质上，CVAE 引入了随机隐变量，这些变量被学习以在给定输入 Xi 的情况下对一组不同的预测 Yi 进行编码，使其适用于建模一对多映射。在训练时，给隐变量提供了更高的概率，在给定上下文Xi和Yi的情况下，产生更加接近真实预测的重构 $\hat{Y_i}$ ，在测试时，从先验分布中随机采样并通过解码器网络解码以产生预测假设。这使得概率推理能够用于处理预测空间中的多模态。

训练阶段

首先，智能体i、Xi 和 Yi 的过去和未来轨迹分别通过两个具有单独参数集的 RNN 编码器（即图 2 中的 RNN Encoder1 和 RNN Encoder2）进行编码。将得到的两个编码和连接起来并通过一个具有非线性激活（例如，relu）的全连接（fc）层。两个并排的 fc层随后产生均值和上的标准偏差。的分布被建模高斯分布，并且在训练期间通过 KL 散度对先验分布进行正则化。成功训练后，目标分布在隐变量中学习，这允许人们从高斯分布中抽取随机样本以在测试时重建 Yi。因为反向传播是不可能的通过随机抽样，我们采用标准的重新参数化技巧[22]使其可微。

为了建模，要和Xi进行以下合并：采样的隐变量被传入到一个fc层来匹配的维度，后面是softmax层，产生，然后通过掩蔽操作⊠（逐元素乘法）将其与过去轨迹的编码相结合，可以将其解释为引导退出，其中引导 β 来自训练阶段的个体轨迹的完整上下文，而它在测试阶段是从 Xi、Yi 不可知的先验分布中随机抽取的。最后，下面的 RNN 解码器（即图 2 中的 RNN Decoder1）取上一步的输出，并生成 K 个未来预测样本，即。

训练基于 CVAE 的 RNN 编码器-解码器有两个损失项。

重建损失：，这种损失衡量了生成的样本与实际地面实况的距离。

KLD损失：，这种正则化损失衡量了测试时的采样分布与我们在训练期间学习的潜在变量分布的接近程度。

测试阶段

在测试时，未来轨迹的编码不可用，因此过去轨迹的编码与从先验中抽取的潜在变量的多个随机样本相结合。与训练阶段类似，被传递给下面的个 RNN 解码器（即图 2 中的 RNN 解码器1），以生成一组多样化的预测假设。

3.2.基于 IOC 的排名和细化

为了长期预测问题，我们在强化学习 (RL) 中采用决策过程的概念，其中训练代理选择最大化长期奖励以实现其目标的行为 [43]。然而，IOC [50, 11] 并没有手动设计奖励函数，而是学习了一个未知的奖励函数。受此启发，我们设计了一个 RNN 模型，该模型将奖励分配给每个预测假设，并根据累积的长期奖励来衡量它们的优度。此后，我们还通过另一个 fc 层学习位移到实际预测来直接细化预测假设。最后，该模块接收来自回归预测的迭代反馈并不断调整，以便最终产生精确的预测。该模型如图 2 右侧所示。在此过程中，我们结合 1）通过嵌入向量的过去运动历史，2）通过具有参数 ρ 的 CNN 的语义场景上下文，以及 3）多个智能体之间的交互使用交互功能（第 3.3 节）。请注意，与典型的机器人应用程序 [50, 11] 不同，我们不假设目标（最终目的地）是已知的或智能体的动态是已知的。我们的模型在一个连贯的框架中学习智能体动态以及场景上下文。

学习得分

对于代理 i，有由我们的 CVAE 采样器生成的 K 个样本。让智能体 i 的个体预测假设的分数 s 定义如下：

其中是其他智能体的预测样本（即，其中），是智能体 i 在时间 t 的第 k 个预测样本，是直到时间步 t 的所有预测样本，T 是最大预测长度，是在每个时间步分配奖励值的奖励函数。被实现为一个 fc 层，该层在每个时间步都连接到 RNN 单元的隐藏向量。我们在所有时间步上共享 fc 层的参数（每个 RNN 单元输出相同维度的隐藏状态）。因此，分数 s 是随时间累积的奖励，占分配给每个假设的整个未来奖励。这使我们的模型能够通过允许我们像在其他基于采样的 IOC 框架中一样对样本进行排名来做出战略决策 [11]。此外，奖励函数包含场景上下文以及代理之间的交互（参见第 3.3 节）。

学习提炼

除了分数，我们的模型还估计了一个回归向量，它细化了每个预测样本。每个代理 i 的回归向量通过定义如下的回归函数 η 获得

表示为神经网络的参数，回归函数 η 累积从过去到整个未来帧的场景上下文和所有其他智能体动态，并估计整个时间范围 T 上的最佳位移向量。与分数 s 类似，它考虑了未来在场景上下文和动态智能体之间产生输出的交互方面发生的情况。我们将 η 实现为另一个 fc 层，该层连接到 RNN 的最后一个隐藏向量，该向量输出 M ×T 维向量。 M = 2（或 3）是位置状态的维度。

迭代反馈

使用位移向量，我们迭代地细化预测假设。在每个循环之后，由更新，并馈送到 IOC 模块。他的过程类似于在分数函数 s 上的梯度下降优化，但它不需要计算 RNN 上的梯度，RNN 由于循环结构（即梯度消失或爆炸）可能非常不稳定。我们观察到迭代细化确实提高了实验中预测样本的质量（见图 4 和图 5）

损失

训练 IOC 排序和细化模块有两个损失项。

交叉熵损失：的目标分布q由得到。其中

回归损失：

最后，将整个网络的总损失定义为多任务损失如下，其中 N 是一批中的智能体数。

pic 3. 图 2 中 RNN 解码器 2 中场景上下文融合单元 (SCF) 的详细信息。请注意，每个时间步长 xt 的 GRU 单元的输入集成了多个线索（即智能体的动态、场景上下文和智能体之间的交互）。

3.3.场景上下文融合

排名和细化模块依赖于共享RNN模块的隐藏表示。那么，RNN必须包含有关以下的信息：1）个体过去的运动上下文；2）语义场景上下文；3）多智能体之间的交互。这些信息是为了产生适当的隐藏表示来对一个预测进行打分和细化。

我们通过在每个时间步对RNN输入以下Xt来达到目标：

其中是在t 时的一个速度，是一个就有一个激活函数的全连接层，将速度映射到高维空间。是一个池化操作，在位置时池化卷积层的特征，是融合层计算的交互特征，该融合层在空间上聚合其他智能体隐向量，类似于SocialPooling (SP) 层 [3]。嵌入向量图 2 中 RNN Encoder1 的输出）被共享为 RNN 的初始隐藏状态，以提供单独的过去运动上下文。与 CVAE 模块共享此嵌入，因为两者都需要将相同的信息嵌入到向量中。

交互特征：我们实现了一个类似于 SP 层 [3] 的基于空间网格的池化层。对于智能体 i 在 t 处的每个样本 k，我们定义了以为中心的空间网格单元。在每个网格单元 g 上，我们汇集了空间单元内所有其他智能体样本的隐藏表示，。DESIRE没有使用矩形网格的最大池化操作，而是采用具有平均池化的对数极坐标网格。结合 CNN 特征，SCF 模块为 RNN 解码器提供静态和动态场景信息。它学习智能体语义和场景之间的一致性，以进行可靠的预测。