从MultiPath到WayFormer

EEPI

已于 2024-03-04 17:22:05 修改

阅读量849

点赞数 8

文章标签：机器学习人工智能深度学习

于 2024-01-21 23:52:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eepii/article/details/135738015

版权

本文讨论了Waymo的轨迹预测模型发展，从MultiPath到MultiPath++，再到WayFormer，重点介绍了模型结构的演变，包括训练前的轨迹近似、训练中的损失设计以及存在的问题，如信息丢失和算力浪费。文章还探讨了如何通过RNN、MCG和集成学习优化模型，以提升预测精度和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Waymo轨迹预测时间线
MultiPath
MultiPath++

Waymo轨迹预测时间线

MutltiPath 2019
MultiPath++ 2021
WayFormer 2022

MultiPath

模型结构

在这里插入图片描述 ## Methods

Before training: trajectory approxiamtion

在训练之前，采用K-means聚类获得K条轨迹
因为：（1）该论文采用了anchor-based方案，在训练时需要有初始轨迹簇。（2）直接从大量的轨迹簇中获取，容易导致模态坍塌directly learning a mixture suffers from issues of mode collapse；（3）在其他领域（目标识别和人体位姿估计）中已有先验锚点的案列it’s common practice in other domains such as object detection [23] and human pose estimation。
在这里插入图片描述

During training

将场景信息光栅化得到rasterization image，然后进行卷积，得到一张feature map；
针对每一个障碍物进行crop，得到局部的feature map；
针对每一个障碍物，确定和真实轨迹最近的anchor，计算基于该anchor回归出的轨迹的loss。

loss是如何设计的

loss只监督和真值最近的那条anchor轨迹的参数，由两部分构成

和真值最近的那条轨迹的概率
那条轨迹在对应均值和方差下预测的轨迹点的概率密度
以上加起来，取对数似然。

输出是什么

假设预测30步，一共有16条anchor轨迹，那么需要预测

16:16条轨迹的概率
16x30x2 = 960：16条轨迹，每条轨迹的轨迹点要预测其均值和方差

结果

在这里插入图片描述

MultiPath++

MultiPath有什么问题？

难以平衡光栅化图像的大小、精度和对应的算力需求，uneasy trade-off；
光栅化渲染的过程造成了信息丢失，如radial velocity；
固定anchor无法表征足够表征多元的场景 most modes are not a good fit
卷积适合于局部特征提取，难以提取长距离的信息，难以保证交互；
场景信息稀疏，造成算力浪费，information is spatially sparse。

如何优化

用RNN取代CNN，建模车道线、车辆历史轨迹等序列化信息
用MCG进行交互
anchor隐式表征（latent representations of anchors）取代固定anchor
采用集成学习方法，对输出轨迹簇进行聚类

模型结构

在这里插入图片描述

Druing training: learned anchor embeddings

之前采用固定的显式的锚点轨迹簇，现在采用M个向量作为可训练的参数，和上游concat完的特征进行交互，从而后续解析得到轨迹簇。

WayFormer

模型结构

在这里插入图片描述

博客等级

码龄5年

72
原创

240
点赞

383
收藏

149
粉丝

关注

私信

热门文章

分类专栏

自动驾驶大模型领域的论文精读笔记 21篇
ROS 2篇
python 3篇
仿真 2篇
自动驾驶 4篇
C++ 2篇
Ubuntu 2篇
C 1篇
AMESim 1篇
Matlab 1篇

最新评论

【论文精读】Fully Sparse 3D Occupancy Prediction
周陽讀書: RayIOU细节还是有些不懂
【论文精读】Fully Sparse 3D Occupancy Prediction
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文精读】Exploring the Causality of End-to-End Autonomous Driving
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文精读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
EEPI: 这篇论文得出的结论不止这一个，但是读者只看这一个就会有错误的印象。这篇论文认为，1场景过于简单2自车状态信息提示过多，导致MLP可以达到SOTA。但是从工业应用来看，场景会很复杂，比如无保护左转。所以从工业应用来看，暂时不能确定自车状态是好处多于坏处还是坏处多于好处。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。