大语言模型是否可以让自动驾驶真的走向无人？-CSDN博客

文章探讨了大语言模型（如GPT-3.5和CLIP）在各行业的应用，特别是在自动驾驶领域的革命性影响。研究人员正在探索如何利用LLM的强大能力提升自动驾驶的理解和决策能力，相关论文和研究工作显示出该领域的发展趋势和巨大潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ChatGPT最爆火的时候，互联网就流传一句话：以前所有的行业都可以用互联网做一遍，现在，所有的行业都可以用大模型做一遍！ChatGPT，特别是 GPT-3.5的出现成为了大语言模型（Large Language Models）发展的一个里程碑，新的大语言模型也如雨后春笋般不断涌现如下图所示。

LLM因其卓越的性能而引起了广泛的关注，越来越多的研究人员开始探索和利用LLM强大的语言理解、解释、分析和推理能力来解决以前难以甚至不可能解决的问题。以CLIP为代表的Vision-Language Models (VLMs)同样为多模态领域带来了革命性的变革，对图像和文本进行联合学习的能力颠覆了以往的单模态学习方式，使得模型能够对图像和文本的关系有更深入的理解。随着LLM的兴起，人们越来越关注探索如何有效地将视觉模块纳入LLM以执行多模态任务即Multimodal Large Language Models（MLLM）。

而自动驾驶的目标是开发无需人工干预、减少事件和提高交通效率的车辆。随着自主性的增加，人工干预减少，而车辆理解周围环境的需求增加。这种理解环境的需求促使自动驾驶系统不断演进和发展，涉及诸如计算机视觉、传感技术和决策制定等多个领域的创新。大语言模型（LLM）已经证明了包括理解上下文、逻辑推理和生成答案在内的能力。一个自然的想法是利用这些能力来增强自动驾驶的能力，目前可以结合的任务类型如下图所示：

特别是今年以来，学术界在自动驾驶领域上的大模型工作突然爆发，工业界相关融资的案例也如雨后春笋版快速崛起超越其它行业，相关的工作机会越来越多。说实话，看到了2016年的自动驾驶招聘那般场景。某Boss招聘网站上，各大公司更是开出高薪挖人，自动驾驶公司/机器人公司/互联网公司，都在争抢相关人才，我们也注意到了稚晖君的公司也一直在招大模型算法工程师.....

如何学习？

大语言模型结合自动驾驶作为新兴技术领域，展现着巨大的潜力和影响。这种前沿技术对于快速学习和深入理解提出了挑战。为此，自动驾驶之心为大家整理了10多篇大语言模型和自动驾驶结合的论文，系统的路线帮助大家一览该领域最先进的技术发展：

CLIP：Learning Transferable Visual Models From Natural Language Supervision
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
ADAPT: Action-aware Driving Caption Transformer
BEVGPT：Generative Pre-trained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning
DriveGPT4：Interpretable End-to-end Autonomous Driving via Large Language Model
Drive Like a Human Rethinking Autonomous Driving with Large Language Models
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving
Planning-oriented Autonomous Driving