本文介绍了将多模态大语言模型(MLLMs)整合到下一代自动驾驶系统中的模式。
随着大语言模型 (LLM) 和视觉基础模型 (VFM) 的出现,受益于大模型的多模态人工智能系统有潜力像人类一样全面感知现实世界、做出决策。在最近几个月里,LLM 已经在自动驾驶研究中引起了广泛关注。尽管 LLM 具有巨大潜力,但其在驾驶系统中的关键挑战、机遇和未来研究方向仍然缺乏文章对其详细阐明。
在本文中,腾讯地图、普渡大学、UIUC、弗吉尼亚大学的研究人员对这个领域进行了系统调研。该研究首先介绍了多模态大型语言模型 (MLLM) 的背景,使用 LLM 开发多模态模型的进展,以及对自动驾驶的历史进行回顾。然后,该研究概述了用于驾驶、交通和地图系统的现有 MLLM 工具,以及现有的数据集。该研究还总结了第一届 WACV 大语言和视觉模型自动驾驶研讨会 (LLVM-AD) 的相关工作,这是应用 LLM 在自动驾驶领域的首个研讨会。为了进一步推动这一领域的发展,该研究还讨论了关于如何在自动驾驶系统中应用 MLLM,以及需要由学术界和工业界共同解决的一些重要问题。
- 综述链接:https://arxiv.org/a