[论文笔记]Multixnet Multiclass multistage multimodal motion prediction

最新推荐文章于 2024-07-04 17:09:21 发布

CwwwwS

最新推荐文章于 2024-07-04 17:09:21 发布

阅读量318

点赞数 1

分类专栏：笔记文章标签：自动驾驶人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43146899/article/details/121780206

版权

MultiXNet: Multiclass Multistage Multimodal Motion Prediction

MultiXNet 一种端到端的检测与运动预测模型。

如下图模型根据激光雷达和地图的输入数据，输出则是场景中其他参与者未来状态的多模态分布。

请添加图片描述

本文的工作建立在IntentNet的基础上，对多种类型的交通参与者例如车辆、行人、自行车的联合检测和运动轨迹预测。

bird’s-eye view (BEV)和 Range view (RV)是对激光雷达点云数据的两种表示，具体的描述在上一篇论文笔记中提到。

BEV和RV融合方法虽然既保留了近距离目标的信息，也保留了远距离目标的信息，但代价是网络结构更加复杂和繁重。而本文的关注重点是BEV方法。

以前关于轨迹预测的研究大多集中在预测特定类型的道路行动者(如车辆或行人)的运动。然而，在公共道路上往往存在多种类型的道路参与者，为了安全驾驶，模型需要准确预测所有相关行为者的运动。此外，不同的行动者类型有不同的运动模式，例如，自行车手和行人的行为非常不同，因此对它们分别建模是很重要的。最近的一些论文使用递归方法解决了这一挑战，然而，与本文的端到端方法不同的是，那些方法没有使用原始传感器数据进行端到端的训练。

MultiXNet 结构

请添加图片描述

MultiXNet 建立在IntentNet 的基础之上。

将点云转化到BEV视角中，每个时刻t的激光雷达扫描 $S_t$ 的激光雷达点云表示为( $x, y, z$ )。然后，在以SDV为中心的BEV图像中将扫描 $S_t$ 立体像素化，体素大小分别为 $\triangle_L.\triangle_W.\triangle_V$ 分别表示的x、y和z轴。并且将过去 $T$ -1时刻的编码映射到同一个BEV框架中，并沿着通道维度堆叠特征映射。

接着将全局地图的信息编码在BEV视图中，地图编码说将行车路径、人行横道、车道和道路边界、十字路口、车道和停车场这些元素编码成二级制掩码，这样就产生了7个额外映射通道，

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[论文笔记]Multixnet Multiclass multistage multimodal motion prediction

MultiXNet: Multiclass Multistage Multimodal Motion PredictionMultiXNet 一种端到端的检测与运动预测模型。如下图模型根据激光雷达和地图的输入数据，输出则是场景中其他参与者未来状态的多模态分布。本文的工作建立在IntentNet的基础上，对多种类型的交通参与者例如车辆、行人、自行车的联合检测和运动轨迹预测。bird’s-eye view (BEV)和 Range view (RV)是对激光雷达点云数据的两种表示，具体的描述在上一篇论
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。