摘要
最近的运动预测方法试图通过隐式地规范化特征或明确地生成多个候选目标,来实现这种多模态运动预测。然而,这仍然具有挑战性,因为潜在特征可能集中在数据的最频繁模式上,而基于目标的方法主要依赖先验知识来生成和选择目标。mmTransformer设计了一种基于堆叠transformers的新型网络体系结构,利用一组固定的独立方案在特征水平上进行多模态建模。然后开发了一种基于区域的训练策略,以诱导生成的建议的多模态。
演示视频和代码:https://github.com/decisionforce/mmTransformerhttps://github.com/decisionforce/mmTransformer
1. 简介
交通车辆在相同场景中也会有不同的行为,而在数据集中,每个场景中仅有一条轨迹的真值,因此,实现多模态预测的一个挑战在于如何学习在有限的训练样本下覆盖给定场景中的所有可能的结果。
图1 复杂交通场景中多模态轨迹的预测。对于每一个靠近自车的移动车辆,所提出的模型预测了三个可能的未来轨迹。
最近的运动预测方法主要采用概率方法[20,17,30]或基于目标的方法[35,28,5,11]来解决上述问题。
概率方法:通过将潜在可能的模型定义为潜在变量,隐式地建模轨迹的不确定性。它们要么通过基于不同潜在变量的生成器实现多模态预测,要么直接约束概率分布(例如,GMM),以获得不同的结果。
缺点:很大程度上依赖于预定义的先验分布和精心设计良好的损失函数,可能会导致优化不稳定和模态崩溃问题。
基于目标的方法:首先将候选点或轨迹作为建议定义,然后将这些建议回归或分类到地面真相。通过预定义的建议,这些方法减轻了优化负担,缩小了求解的可行空间。
缺点:存在以下两个问题: 1) 结果在很大程度上依赖于预定义锚点的质量,因为启发式方法应用于候选点的采样。2) 多模态预测由于在训练过程中不能很好地捕捉到轨迹预测的多模态性质,因此不能保证多模态预测。
mmTransformer:目标首先被随机初始化,然后细化以合并上下文信息。基于transformers结构,对序列数据建模是有效的。整个模型可以看作是堆叠的transformers,其中过去的轨迹、道路信息和社会交互与几个transformers编解码器模块分层聚合。整个交通场景的两个多模态预测示例如图1所示。
mmTransformer开发了两种新的机制来改善由相同的特征所带来的单峰效应:(1)在运动预测领域引入了一种轨迹目标机制。具体来说,mmTransformer解码器中的查询表示为轨迹目标,它渐近地聚合编码器的多个通道上下文信息,并做出独立的预测。由于这些目标是正交的,它们都将携带定制的特征,从而促进多样性和多模态。(2)其次,mmTransformer开发了一种基于区域的训练策略(RTS)来明确地确保多模态,它解决了真值的唯一性和预测的多模态性质之间的冲突。我们将周围的空间划分为几个区域,并将轨迹目标分组为不同的集合,每个集合被分配到一个区域。在训练期间,只有分配给GT所在区域的一组目标将被用来优化框架。这种新策略强制个别提案专注于特定的模式,而不影响其他提案学习到的潜在特征。
贡献:(1)mmTransformer是第一个使用堆叠Transformer进行轨迹目标来聚合多通道的上下文信息并实现多模态预测的模型。(2)为了保持运动预测的多模态性质,mmTransformer设计了一种新的基于区域的训练策略,以确保每个单独的目标都能够捕获一个特定的模式。(3)大量的实验表明,所提出的模型架构和定制的基于区域的训练策略带来了实质性的改进。我们的模型在2020年11月16日的Argoverse基准排行榜上排名第一,并且在排行榜上仍然具有竞争力。
2 相关工作
3.多模态运动预测框架
3.1 堆叠Transformer
(问题):vanilla(原始的)transformer 仅支持一种类型数据的编码,一个简单的解决方案是将所有类型的输入,如过去的轨迹和车道信息连接到一个上下文嵌入序列中,并将它们输入到transformer.由于transformer需要固定的输入大小,因此这个简单的解决方案将消耗大量的资源。此外,由于不同类型的信息会在这种设计中复合,并被注意层聚合,潜在特征的质量可能会受到损害。(思路):因此,mmTransformer考虑了单独合并多个信息通道的替代方案。
绿色文字不太理解
(方法):在不同输入的情况下,挑战