[论文笔记]Multixnet Multiclass multistage multimodal motion prediction

MultiXNet: Multiclass Multistage Multimodal Motion Prediction

MultiXNet 一种端到端的检测与运动预测模型。

如下图模型根据激光雷达和地图的输入数据,输出则是场景中其他参与者未来状态的多模态分布。

请添加图片描述

本文的工作建立在IntentNet的基础上,对多种类型的交通参与者例如车辆、行人、自行车的联合检测和运动轨迹预测。

bird’s-eye view (BEV)和 Range view (RV)是对激光雷达点云数据的两种表示,具体的描述在上一篇论文笔记中提到。

BEV和RV融合方法虽然既保留了近距离目标的信息,也保留了远距离目标的信息,但代价是网络结构更加复杂和繁重。而本文的关注重点是BEV方法。

以前关于轨迹预测的研究大多集中在预测特定类型的道路行动者(如车辆或行人)的运动。然而,在公共道路上往往存在多种类型的道路参与者,为了安全驾驶,模型需要准确预测所有相关行为者的运动。此外,不同的行动者类型有不同的运动模式,例如,自行车手和行人的行为非常不同,因此对它们分别建模是很重要的。最近的一些论文使用递归方法解决了这一挑战,然而,与本文的端到端方法不同的是,那些方法没有使用原始传感器数据进行端到端的训练。

MultiXNet 结构

请添加图片描述

MultiXNet 建立在IntentNet 的基础之上。

将点云转化到BEV视角中,每个时刻t的激光雷达扫描 S t S_t St的激光雷达点云表示为( x , y , z x, y, z x,y,z)。然后,在以SDV为中心的BEV图像中将扫描 S t S_t St立体像素化,体素大小分别为 △ L . △ W . △ V \triangle_L.\triangle_W.\triangle_V L.W.V分别表示的x、y和z轴。并且将过去 T T T-1时刻的编码映射到同一个BEV框架中,并沿着通道维度堆叠特征映射。

接着将全局地图的信息编码在BEV视图中,地图编码说将行车路径、人行横道、车道和道路边界、十字路口、车道和停车场这些元素编码成二级制掩码,这样就产生了7个额外映射通道,

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值