论文阅读笔记:Multi-Agent Tensor Fusion for Contextual Trajectory prediction

论文提出了一种名为Multi-Agent Tensor Fusion (MATF)的架构,用于处理行人轨迹预测的挑战。MATF结合了以代理为中心和以空间为中心的方法,通过融合多智能体状态和场景特征来捕捉空间相互作用。使用全卷积映射形成的多智能体融合张量可以学习社会关系和上下文信息,并通过条件生成对抗网络(CGAN)来表示未来轨迹的不确定性。MATF在预测时考虑了智能体的行为随机性、与其他智能体的互动以及场景纹理的影响。
摘要由CSDN通过智能技术生成

         作者的意图在于把来自场景纹理的约束和行人行为的随机性约束进行共同建模。作者认为,行人轨迹预测之所以充满挑战性,是因为智能体运动具有随机性,并且受目标、与其他智能体的社会互动、场景纹理等因素的共同影响,并且对轨迹的预测需要泛化到新的情境下,其他智能体的数量和配置并不是固定的。为了解决这个问题,之前的工作多使用以代理为中心或者以空间位置为中心的编码方式。以代理为中心的方法把在多个智能体的特征向量上应用聚合函数(如Social-LSTM),以空间为中心的方法直接对场景的自上而下表示进行操作。

        作者提出了多智能体张量融合(Multi-Agent Tensor Fusion,MATF)的编码解码架构,这种架构有以代理为中心方法的特点,并且能以空间为中心方式通过融合的多智能体张量保留所有智能体和环境的空间布局。作者把场景中每个智能体的过去轨迹的编码和场景的编码对齐以保持智能体和场景的空间特征对应关系,接着通过全卷积映射形成一个融合的多智能体融合张量,它能够捕捉到多智能体之间以及智能体-环境之间的空间相互作用。然后,作者通过解码在MATF中编码的综合社会关系和上下文信息得到场景中所有智能体的轨迹预测。为了捕捉未来预测轨迹的不确定性,作者使用了条件生成对抗训练来表示有限样本组上轨迹的分布。

(1)MATF编码-解码

        

        MATF中有两个并行的编码流,一部分是针对单个智能体的LSTM,用于编码该智能体的过去轨迹,所有智能体的LSTM共享权重参数;另一部分是用来编码静态场景上下文图像c的CNN。LSTM输入该代理的过去轨迹,输出一个一维的状态向量\left \{ x'_{1},x'_{2},.....x'_{n} \right \},场景上下文编码器输入一个鸟瞰视图的原始图像(或者包含所有静态对象的分割图像),输出保留场景空间结构信息的缩放特征图c'

         接下来,这两个编码流在空间上连接到一个多代理张量中,多代理张量是把所有智能体的状态向量

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值