用扩散模型来构建自动驾驶的世界Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

本文提出一种结合多视角、时间序列、空间布局和文本信息的世界模型,通过扩散模型改造和时间编码、多视角编码等技术,实现自动驾驶的视觉预测与规划。模型利用端到端规划生成一致性高的多视图,并通过FID和FVD评估生成质量,以及KMP和CVT评估一致性与可控性。
摘要由CSDN通过智能技术生成

论文出处:

[2311.17918] Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving (arxiv.org)

结合多视角的图像,时间序列,空间布局,文本等各种信息构造世界模型。预测不同动作自动生成场景做评估,挑选最好的规划

多视角视频生成

  1. 多视角结合时间数据共同建模,利用扩散模型改造。

    1. 增加两个层:时间编码层,把图像的扩散模型提升为时间模型。多视角编码层,要共同建模多个视图,不同的视图之间要进行信息的交换,让每个视图的生成风格一致。

    2. 多视角时间调整:先用单视图条件训练一个标准的扩散模型,然后固定参数,用视频数据对时间层和多视角编码层做微调

  2. 多视角因子分解:分成两类:参考视图(前,左后,右后),拼接视图(左前,右前,后);这两类视图之内是不会有重叠部分的,但是两个类别之间有部分是会重叠的。这样可以基于参考视图来做联合不重叠的部分建模,再结合时间的连贯性,可以结合上下文帧来实现视图生成,生成的多视图一致性强

  3. 统一条件生成:结合多种形式的信息。

      总共四个维度的条件

    1. 图像:初始上下文帧结合参考视图,ConvNeXt 做编码,从不同的图片提取特征然后连接到一个维度。

    2. 布局:把3D box, HD map投影到2D透视图中,然后利用图像编码的形式,得到一系列基于投影布局和bev分割信息的位置嵌入

    3. 文本:遵循扩散模型的惯例,用CLIP作为编码器,得到视图的各种描述信息

    4. 动作:将一个时间步长内的动作定义成(∆x, ∆y),使用MLP将动作做d维度的嵌入

最终统一方式:所有的编码嵌入都是降到了d维度的,把所有的提取到的特征都做一个连接,然后做交叉注意力

端到端的的规划

使用预训练好的模型,输入真实的视角,然后构建决策树的形式,模型生成各个轨迹规划的视频并且结合激励函数的反馈做最佳的选择

决策的激励:1.地图激励(车道上合适的位置,远离路边缘,中心线一致)2.物体激励(安全的行车距离)

进一步从非矢量化表示中获得激励,如GPT-4V去获取图片进一步的特征信息,增加驾驶安全性

模型评估

生成视频的质量:FID:统计生成的图片和真实图片的特征特征分布,用来衡量生成的效果;FVD:用于视频的FID

多视图的一致性:使用KMP关键点匹配,计算当前视图和其两个相邻视图之间匹配关键点的数量和生成数据中匹配点的数量与真实数据中匹配点数量之间的比例

可控性评测:CVT分割背景,3D目标检测,在线地图重建

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

哆啦叮当

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值