ChatGPT最爆火的时候,互联网就流传一句话:以前所有的行业都可以用互联网做一遍,现在,所有的行业都可以用大模型做一遍!ChatGPT,特别是 GPT-3.5的出现成为了大语言模型(Large Language Models)发展的一个里程碑,新的大语言模型也如雨后春笋般不断涌现如下图所示。
LLM因其卓越的性能而引起了广泛的关注,越来越多的研究人员开始探索和利用LLM强大的语言理解、解释、分析和推理能力来解决以前难以甚至不可能解决的问题。以CLIP为代表的Vision-Language Models (VLMs)同样为多模态领域带来了革命性的变革,对图像和文本进行联合学习的能力颠覆了以往的单模态学习方式,使得模型能够对图像和文本的关系有更深入的理解。随着LLM的兴起,人们越来越关注探索如何有效地将视觉模块纳入LLM以执行多模态任务即Multimodal Large Language Models(MLLM)。
而自动驾驶的目标是开发无需人工干预、减少事件和提高交通效率的车辆。随着自主性的增加,人工干预减少,而车辆理解周围环境的需求增加。这种理解环境的需求促使自动驾驶系统不断演进和发展,涉及诸如计算机视觉、传感技术和决策制定等多个领域的创新。大语言模型(LLM)已经证明了包括理解上下文、逻辑推理和生成答案在内的能力。一个自然的想法是利用这些能力来增强自动驾驶的能力,目前可以结合的任务类型如下图所示:
特别是今年以来,学术界在自动驾驶领域上的大模型工作突然爆发,工业界相关融资的案例也如雨后春笋版快速崛起超越其它行业,相关的工作机会越来越多。说实话,看到了2016年的自动驾驶招聘那般场景。某Boss招聘网站上,各大公司更是开出高薪挖人,自动驾驶公司/机器人公司/互联网公司,都在争抢相关人才,我们也注意到了稚晖君的公司也一直在招大模型算法工程师.....
如何学习?
大语言模型结合自动驾驶作为新兴技术领域,展现着巨大的潜力和影响。这种前沿技术对于快速学习和深入理解提出了挑战。为此,自动驾驶之心为大家整理了10多篇大语言模型和自动驾驶结合的论文,系统的路线帮助大家一览该领域最先进的技术发展:
CLIP:Learning Transferable Visual Models From Natural Language Supervision
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
ADAPT: Action-aware Driving Caption Transformer
BEVGPT:Generative Pre-trained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning
DriveGPT4:Interpretable End-to-end Autonomous Driving via Large Language Model
Drive Like a Human Rethinking Autonomous Driving with Large Language Models
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving
Planning-oriented Autonomous Driving
论文领取
添加小助理微信 或者关注公众号【自动驾驶Daily】后台回复“大模型“获取