端到端
自动驾驶在大规模数据的支持下展现了强大的规划能力,但在复杂和罕见场景中仍因常识有限而表现不佳。相比之下,大规模视觉-语言模型(LVLMs)在场景理解和推理方面表现出色。未来的发展方向在于结合这两种方法的优势。以往使用 LVLMs 预测轨迹或控制信号的方法效果欠佳,因为 LVLMs 并不擅长精确的数值预测。本文提出了Senna
,一种将 LVLM(Senna-VLM
)与端到端模型(Senna-E2E
)结合的自动驾驶系统。Senna 将高层规划与低层轨迹预测解耦:Senna-VLM 生成自然语言的规划决策,而 Senna-E2E 预测精确的轨迹。Senna-VLM 采用多图像编码方法和多视角提示,以实现高效的场景理解。此外,我们引入了面向规划的问答(QAs
)和三阶段训练策略,在保留常识的同时提升了 Senna-VLM 的规划性能。在两个数据集上的大量实验表明,Senna 实现了SOTA规划性能。值得注意的是,在大规模数据集 DriveX 上进行预训练并在 nuSce
VLM-E2E(1): Senna论文解读
最新推荐文章于 2025-04-09 13:24:35 发布