EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

论文阅读: EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

论文标题

EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

论文来源

NIPS 2020, 论文PDF

论文代码

暂未开源

1 背景梳理

多智能体轨迹预测这一任务的目标是给定系统中不同种类物体的历史轨迹,预测出其未来的运动趋势。多智能体轨迹预测有着广阔的实际应用,如自主驾驶、移动机器人导航等。在多智能体系统中,一组智能体会相互作用,这些相互作用符合一定的认知先验或者物理学知识,进而在个体和整个多智能体系统的层次上产生一系列复杂的行为模式。在该任务中,由于没有任何关于潜在交互模式的知识,并且每个智能体通常有多种可能的模式,因此对这种动态进行建模并预测其未来行为是一个挑战。

为此,现有的工作也提出了一系列的解决方案,如social pooling[1], attention机制[2],图神经传递等等[3],这些工作通过信息聚合的方式隐式地建模了智能体间的交互关系。和以往工作不同,本文显式地对潜在交互图的结构进行推理,进而得到多种交互类型的关系结构,并且引入动态图的概念,能对多种交互类型的关系结构进行动态更新。

2 论文贡献

方法设计

(1) 本文提出了一种动态机制来随时间自适应地演化智能体交互图,该机制能够捕捉多个智能体之间交互模式的动态变化。本文还引入了一个双阶段训练流水线,不仅提高了训练效率,加快了收敛速度,而且在预测精度方面提高了模型性能。

(2) 本文的框架从多个方面捕捉了多智能体系统中未来轨迹的不确定性和多模态性。

实验效果

本文在物理仿真数据集和轨迹预测数据集验证了提出方法的可行性和高效性,取得了state-of-the-art的结果。

3 方法

问题定义

假设系统中有N个智能体,它们共有M种类别,不同的系统中智能体的数量存在区别。定义一系列智能体状态序列为 X 1 : T = { x 1 : T i , T = T h + T f , i = 1 , … , N } \mathbf{X}_{1: T}=\left\{\mathbf{x}_{1: T}^{i}, T=T_{h}+T_{f}, i=1, \ldots, N\right\} X1:T={x1:Ti,T=Th+Tf,i=1,,N}, 过往观察时长为 T h T_h Th,未来预测时长为 T f T_f Tf,状态可以表示为2D坐标点: x i t = ( x i t , y i t ) \mathbf{x}_i^t = (x_i^t,y_i^t) xit=(xit,yit)。任务目标为预测序列未来的分布 p ( X T h + 1 : T h + T f ∣ X 1 : T h , C ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p(XTh+1:Th+TfX1:Th,C),其中C表示全局的环境信息。

静态交互图学习

本文在将单个智能体视为节点,在所有节点间建立了全连接图作为交互图的拓扑结构。对于任意的两个节点 i i i j j j, 假设总共有L类交互关系,网络采用了L个MLP对每一类的概率进行计算,得到节点 i i i j j j交互关系的分布,为了保证得到分布趋近于分类分布并且梯度保持连续,本文采用了一种近似处理:
q ( z i j ∣ X 1 : T h , C ) = Softmax ⁡ ( ( e i j 2 + g ) / τ ) , i , j ∈ { 1 , … , N } q\left(\mathbf{z}_{i j} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right)=\operatorname{Softmax}\left(\left(\mathbf{e}_{i j}^{2}+\mathbf{g}\right) / \tau\right), i, j \in\{1, \ldots, N\} q(zijX1:Th,C)=Softmax((eij2+g)/τ),i,j{1,,N}
其中,g是从Gumbel(0,1)分布中抽取的独立且相同分布的样本向量,τ是"温度", 用于调节分布的离散性。得到所有节点对的交互关系后,对每个节点进行信息聚合,将该节点相连所有的边的特征聚合到该节点上:
e ~ t i j = ∑ l = 1 L z i j , l f ~ e l ( [ h ~ t i , h ~ t j ] ) , M S G t i = ∑ j ≠ i e ~ t i j \tilde{\mathbf{e}}_{t}^{i j}=\sum_{l=1}^{L} z_{i j, l} \tilde{f}_{e}^{l}\left(\left[\tilde{\mathbf{h}}_{t}^{i}, \tilde{\mathbf{h}}_{t}^{j}\right]\right), \quad \mathbf{M S G}_{t}^{i}=\sum_{j \neq i} \tilde{\mathbf{e}}_{t}^{i j} e~tij=l=1Lzij,lf~el([h~ti,h~tj]),MSGti=j=ie~tij
得到节点的特征后,对其进行解码,每个时刻的输出是一个具有 k k k个分量的高斯混合分布,其中每个高斯分量的协方差被手动设置为相等。具体来说,解码过程为:

其中, h ~ t i \tilde{h}_t^i h~ti是时间 t t t i i i个GRU的隐藏状态, w t + 1 i , k w^{i,k}_{t+1} wt+1i,k是t+1时刻第i个节点第k个高斯分布的权重。静态图的编码解码过程如下图所示:

交互图动态更新和两阶段训练

为了表示智能体间的交互关系的动态变化,在静态观测图的基础上,本文对编码过程进行了每τ(重编码间隙)时间步长的重复,得到更新后的相互作用图。由于新的交互图也依赖于以前的交互图,也需要考虑它们的影响。因此,本文利用递归单元(GRU)来维护和传播历史信息,并调整先前的交互图:
q ( z β ′ ∣ X 1 + β τ : T h + β τ , C ) = GRU ⁡ ( q ( z β ∣ X 1 + β τ : T h + β τ , C ) , H β ) q\left(\mathbf{z}_{\beta}^{\prime} \mid \mathbf{X}_{1+\beta \tau: T_{h}+\beta \tau}, \mathbf{C}\right)=\operatorname{GRU}\left(q\left(\mathbf{z}_{\beta} \mid \mathbf{X}_{1+\beta \tau: T_{h}+\beta \tau}, \mathbf{C}\right), \mathbf{H}_{\beta}\right) q(zβX1+βτ:Th+βτ,C)=GRU(q(zβX1+βτ:Th+βτ,C),Hβ)
下图给出了重编码的示例(编码长度为5)。

训练时,本文采用了两阶段的训练方式,首先使用静态交互图训练编码/解码函数。然后在动态交互图的训练过程中,在第一阶段利用预先训练好的编解码函数对动态训练中用到的模块参数进行初始化。如果直接训练动态图,会导致较长的收敛时间,并且由于存在大量可学习参数,容易陷入局部最优。这种方法有可能加速整个训练过程,避免一些不好的局部最优解。

不确定性和多模态

本文从3个方面对轨迹的不确定性和多模态进行了建模:
(1) 在解码过程中,输出高斯混合分布,表明在未来的时刻有几种可能的模式。
(2) 不同的采样轨迹会导致不同的动态交互图演化。动态交互图的演化有助于未来行为的多模态,因为不同的底层关系结构会对系统行为实施不同的规则并导致不同的结果。
(3) 在训练过程中,本文进行了d次解码过程,为每个智能体生成d个轨迹,但是训练时只选择损失最小的预测假设进行反向传播,其他的预测假设可能有更高的损失,但并不一定意味着他们是不正确的,它们可能代表其他可能的运动方式。

4 实验

文章首先在一个简单的物理建模的仿真数据集上进行了实验验证,数据集设定了3个小球,3个小球起初是通过一根不能形变的轻杆连接在一起,在后续的某一个时刻,轻杆消失,小球以各自的速度分开运动。下图给出了小球预测结果的可视化以及可解释性的图例,图中颜色的深浅代表小球有无轻杆连接的概率,标明的Time Step是轻杆消失的时刻,可以看到,在两个例子中,轻杆消失后的连接的概率明显变小,小球间交互关系发生了改变。

文章同时也在真实场景下交通轨迹预测和行人轨迹预测的数据集上做了实验,达到了SOTA的效果。

文章对超参数交互种类和重新编码的间隔做了探讨实验,可以看到,适中数量的交互种类可以达到最优的性能,过大或者过小的交互种类数目会导致模型学习能力不够或者过拟合。越小的重新编码间隔下,模型的性能会越好,但是同时计算量也会增大,存在着一个trade-off.

最后是NBA篮球数据集下的可视化结果,第一行表示预测的分布,第二行为最接近实际的预测轨迹:

更多实验结果和更具体分析,请见论文。

5 总结

本文提出了一个通用的轨迹预测框架,显式的进行了关系推理,同时可以将多种类型的上下文信息(例如静态/动态、场景图像/点云密度图)与轨迹信息一起合并到框架中。为了捕捉关系结构演化的潜在动态,本文提出了一种动态机制来演化交互图,该机制分两个连续的阶段进行训练。两阶段训练机制既能加快收敛速度,又能提高预测性能。论文在综合物理仿真和不同应用的轨迹预测数据集上进行了验证,在预测精度方面达到了state-of-the-art。

参考文献

[1]Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan, Alexandre Robicquet, Li Fei-Fei, and Silvio Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 961–971, 2016.

[2]Jiachen Li, Hengbo Ma, and Masayoshi Tomizuka. Conditional generative neural system for probabilistic trajectory prediction. In 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 6150–6156. IEEE, 2019.

[3]Jiachen Li, Hengbo Ma, Zhihao Zhang, and Masayoshi Tomizuka. Social-wagdat: Interaction-aware trajectory prediction via wasserstein graph double-attention network. arXiv preprint arXiv:2002.06241, 2020.

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值