51c自动驾驶~合集11

最新推荐文章于 2025-05-13 07:39:20 发布

DieInADream

最新推荐文章于 2025-05-13 07:39:20 发布

阅读量154

点赞数

文章标签：自动驾驶人工智能机器学习

#自动驾驶大语言模型~80篇论文

这里近期汇总了下大语言模型与自动驾驶结合的相关文章，感慨这一年多以来发展真的很快！大语言模型已经与自动驾驶深度结合，在各个子领域百花齐放。从Planning、QA、生成、数据集到感知、评测等等，遍地开花！近80篇论文，九大方向的全面汇总，欢迎大家转发交流~

Planning

[1] Asynchronous Large Language Model Enhanced Planner for Autonomous Driving（ECCV2024）

论文链接：https://arxiv.org/abs/2406.14556

清华AIR ECCV'24的工作：尽管实时规划器在自动驾驶中表现出色，但对大型语言模型（LLM）的不断探索为提高运动规划的可解释性和可控性开辟了道路。然而基于LLM的规划器面临重大挑战，包括资源消耗增加和推理时间延长，这对实际部署构成了重大障碍。鉴于这些挑战，本文引入了AsyncDriver，这是一种新的异步LLM增强闭环框架，旨在利用LLM产生的场景相关指令特征来指导实时规划者进行精确可控的轨迹预测。一方面，我们的方法突出了LLM在理解和推理矢量化场景数据和一系列路径指令方面的能力，证明了它对实时规划的有效帮助。另一方面，所提出的框架将LLM和实时规划者的推理过程解耦。通过利用其推理频率的异步特性，我们的方法成功地降低了LLM引入的计算成本，同时保持了可比的性能。实验表明，我们的方法在nuPlan的挑战性场景中实现了卓越的闭环评估性能。

[2] PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning

论文链接：https://arxiv.org/abs/2406.01587

理想汽车的工作：车辆运动规划是自动驾驶技术的重要组成部分。当前基于规则的车辆运动规划方法在常见场景中表现良好，但很难推广到长尾情况。同时，在大规模闭环场景中，基于学习的方法尚未达到优于基于规则的方法的性能。为了解决这些问题，我们提出了PlanAgent，这是第一个基于多模态大语言模型（MLLM）的 mid-to-mid规划系统。MLLM被用作认知代理，将类人知识、可解释性和常识推理引入闭环规划。具体来说，PlanAgent通过三个核心模块利用MLLM的强大功能。首先，环境转换模块从环境中构建鸟瞰图（BEV）地图和基于车道图的文本描述作为输入。其次，推理引擎模块引入了从场景理解到横向和纵向运动指令的分层思维链，最终生成了规划器代码。最后，集成了一个反射模块来仿真和评估生成的规划器，以降低MLLM的不确定性。PlanAgent具有MLLM的常识推理和泛化能力，使其能够有效地处理常见和复杂的长尾场景。我们提出的PlanAgent是在大规模和具有挑战性的nuPlan基准上进行评估的。一组全面的实验令人信服地证明，PlanAgent在闭环运动规划任务中的表现优于现有的最先进技术。代码将很快发布。

[3] OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

论文链接：https://arxiv.org/abs/2405.01533

北理工&英伟达的工作：多模态大型语言模型（MLLM）的进步导致人们对基于LLM的自动驾驶代理越来越感兴趣，以利用其强大的推理能力。然而，利用MLLM强大的推理能力来改善规划行为是具有挑战性的，因为规划需要超越2D推理的完全3D态势感知。为了应对这一挑战，本文提出了一个整体框架，用于在代理模型和3D驱动任务之间进行强对齐。我们的框架从一种新颖的3D MLLM架构开始，该架构使用稀疏查询将视觉表示提升并压缩为3D，然后再将其输入LLM。这种基于查询的表示允许我们联合编码动态目标和静态地图元素（例如交通车道），为3D中的感知-动作对齐提供一个压缩的世界模型。我们进一步提出了OmniDrive nuScenes，这是一种新的视觉问答数据集，通过全面的视觉问答（VQA）任务，包括场景描述、交通规则、3D基础、反事实推理、决策和规划，挑战了模型的真实3D情境感知。广泛的研究表明了所提出架构的有效性，以及VQA任务在复杂3D场景中推理和规划的重要性。

[5] AGENTSCODRIVER: Large Language Model Empowered Collaborative Driving with Lifelong Learning

论文链接：https://arxiv.org/pdf/2404.06345.pdf

香港城市大学的工作：近年来互联和自动驾驶技术发展迅速。然而目前的自动驾驶系统主要基于数据驱动的方法，在可解释性、泛化和持续学习能力方面存在不足。此外，单车自动驾驶系统缺乏与其他车辆的协作和协商能力，这对自动驾驶系统的安全性和效率至关重要。为了解决这些问题，我们利用大型语言模型（LLM）开发了一个新的框架AgentsCoDriver，使多辆车能够进行协同驾驶。AgentsCoDriver由五个模块组成：观察模块、推理引擎、认知记忆模块、强化反射模块和通信模块。随着时间的推移，它可以通过与环境的不断互动来积累知识、教训和经验，从而使自己能够终身学习。此外，通过利用通信模块，不同的代理可以在复杂的流量环境中交换信息并实现协商和协作。大量的实验表明了AgentsCoDriver的优越性。

[6] LeGo-Drive: Language-enhanced Goal-oriented Closed-Loop End-to-End Autonomous Driving

论文链接：https://arxiv.org/abs/2403.20116

现有的视觉语言模型（VLM）基于其丰富的场景理解，估计长期轨迹航路点或一组控制动作作为闭环规划的反应性解决方案。然而，这些估计是粗略的，并且对其“世界理解”是主观的，这可能会由于感知错误而产生次优决策。在本文中，我们介绍了LeGo-Drive，它旨在通过基于给定的语言命令估计目标位置来解决这个问题，作为端到端设置中的中间表示。估计的目标可能落在一个不理想的区域，比如在汽车顶部进行停车式指挥，导致规划不足。因此，我们建议以端到端的方式训练架构，从而共同迭代改进目标和轨迹。我们通过在不同模拟环境中进行的综合实验验证了我们方法的有效性。我们报告称，标准自动驾驶指标有了显著改善，目标是达到81%的成功率。我们进一步展示了LeGo Drive在不同驾驶场景和语言输入中的多功能性，强调了其在自动驾驶汽车和智能交通系统中的实际部署潜力。

[7] Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving

论文链接：https://arxiv.org/abs/2402.13602v3

大型语言模型（LLMs）因其理解文本和图像、生成类人文本以及执行复杂推理任务的能力而受到广泛关注。然而他们将这种高级推理与自然语言文本相结合，在动态情况下进行决策的能力需要进一步探索。在这项研究中，我们研究了LLM如何适应和算法和常识推理的组合，特别是在自动驾驶场景中。我们假设LLMs的混合推理能力可以通过使它们能够分析检测到的物体和传感器数据、理解驾驶规则和物理定律，并提供额外的背景来改善自动驾驶。这解决了复杂的情况，比如在低能见度（由于天气条件）下的决策，传统方法可能无法满足这些情况。我们通过将大型语言模型（LLM）的答案与CARLA中人类生成的地面真实情况进行比较，基于准确性对其进行了评估。结果表明，当图像（检测到的物体）和传感器数据的组合被输入LLM时，它可以在各种天气条件下为自动驾驶汽车的制动和油门控制提供精确的信息。这种公式和答案可以帮助自动驾驶系统的决策。

[8] Large Language Models Powered Context-aware Motion Prediction

论文链接：https://arxiv.org/pdf/2403.11057.pdf

清华大学的工作：运动预测是自动驾驶中最基本的任务之一。传统的运动预测方法主要对地图的矢量信息和交通参与者的历史轨迹数据进行编码，缺乏对整体交通语义的全面理解，这反过来又影响了预测任务的性能。在本文中，我们利用大型语言模型（LLMs）来增强运动预测任务的全局交通上下文理解。我们首先进行了系统的提示工程，将复杂的交通环境和交通参与者的历史轨迹信息可视化为图像提示——交通上下文图（TC Map），并附有相应的文本提示。通过这种方法，我们从LLM中获得了丰富的交通上下文信息。通过将这些信息整合到运动预测模型中，我们证明了这种上下文可以提高运动预测的准确性。此外，考虑到与LLM相关的成本，我们提出了一种具有成本效益的部署策略：使用0.7%的LLM增强数据集大规模提高运动预测任务的准确性。

[10] DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

论文链接：https://arxiv.org/abs/2402.12289

清华&理想的工作：城市环境中自动驾驶的一个主要障碍是理解复杂和长尾的场景，例如具有挑战性的道路条件和微妙的人类行为。我们介绍DriveVLM，这是一种利用视觉语言模型（VLM）增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的推理模块的独特组合。此外，认识到VLM在空间推理和繁重计算要求方面的局限性，我们提出了DriveVLM-Dual，这是一种混合系统，将DriveVLM的优势与传统的自动驾驶管道相结合。在nuScenes数据集和我们的SUP-AD数据集上的实验证明了DriveVLM和DriveVLM Dual在处理复杂和不可预测的驾驶条件方面的有效性。最后，我们在生产车辆上部署了DriveVLM Dual，验证了它在现实世界的自动驾驶环境中是有效的。

[11] Driving Everywhere with Large Language Model Policy Adaptation（CVPR2024）

论文链接：https://arxiv.org/abs/2402.05932

英伟达&南加州大学的工作：使驾驶行为适应新的环境、习俗和法律是自动驾驶领域的一个长期问题，阻碍了自动驾驶汽车（AV）的广泛部署。在这篇论文中，我们介绍了LLaDA，这是一种简单而强大的工具，通过使人类驾驶员和自动驾驶汽车的任务和运动计划适应新地点的交通规则，使其能够在任何地方行驶。LLaDA通过利用大型语言模型（LLM）在解释当地驾驶员手册中的交通规则时令人印象深刻的零样本可推广性来实现这一点。通过广泛的用户研究，我们表明LLaDA的指令在消除野生意外情况的歧义方面很有用。我们还展示了LLaDA在真实数据集中调整AV运动规划策略的能力；LLaDA在所有指标上都优于基线规划方法。

[12] LimSim++（IV 2024）

论文链接：https://arxiv.org/abs/2402.01246

上海AI Lab和浙大的工作：多模态大型语言模型（MLLMs）的出现为人工智能开辟了新的途径，特别是通过提供增强的理解和推理能力来实现自动驾驶。本文介绍了LimSim++，这是LimSim的扩展版本，专为MLLM在自动驾驶中的应用而设计。LimSim++承认现有仿真平台的局限性，满足了对长期闭环基础设施的需求，支持自动驾驶的持续学习和改进的泛化能力。该平台提供持续时间较长的多场景模拟，为MLLM驱动的车辆提供关键信息。用户可以参与即时工程、模型评估和框架增强，使LimSim++成为研究和实践的通用工具。本文还介绍了一个基线MLLM驱动的框架，该框架通过不同场景的定量实验进行了系统验证。

[13] VLP: Vision Language Planning for Autonomous Driving（CVPR 2024）

论文链接：https://arxiv.org/abs/2401.05577

美国雪城大学&博世的工作：自动驾驶是一项复杂而具有挑战性的任务，旨在通过场景理解和推理进行安全的运动规划。虽然纯视觉自动驾驶方法最近取得了显著的性能，但通过增强场景理解，仍需要解决几个关键问题，包括缺乏推理、泛化性能低和长尾场景。在本文中，我们提出了VLP，这是一种新的视觉语言规划框架，它利用语言模型来弥合语言理解和自动驾驶之间的差距。VLP通过加强源记忆基础和自动驾驶汽车的上下文理解来增强自动驾驶系统。与之前的最佳方法相比，VLP在具有挑战性的NuScenes数据集上实现了最先进的端到端规划性能，平均L2错误率和碰撞率分别降低了35.9%和60.5%。此外，VLP在具有挑战性的长尾场景中表现出更好的性能，在面对新的城市环境时具有很强的泛化能力。

[14] LLM-ASSIST: Enhancing Closed-Loop Planning with Language-Based Reasoning

论文链接：https://arxiv.org/abs/2401.00125

尽管规划是自动驾驶模块化方法的关键组成部分，但研究人员尚未开发出能够安全处理各种可能驾驶场景的稳健规划算法。基于学习的规划者存在过拟合和长尾性能差的问题。另一方面，基于规则的规划者可以很好地概括，但可能无法处理需要复杂驾驶操作的场景。为了解决这些局限性，我们研究了利用GPT4和Llama2等大型语言模型（LLM）的常识推理能力来生成自动驾驶汽车计划的可能性。特别是，我们开发了一种新型的混合规划器，该规划器利用了传统的基于规则的规划器和基于LLM的规划器。在LLM常识推理能力的指导下，我们的方法可以驾驭现有规划者难以应对的复杂场景，产生合理的输出，同时通过与基于规则的方法一起工作来保持基础。通过对nuPlan基准的广泛评估，我们实现了最先进的性能，在大多数指标上优于所有现有的纯学习和基于规则的方法。

[15] DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

论文链接：https://arxiv.org/abs/2312.09245

上海AI Lab&港中文&商汤等团队的工作：大型语言模型（LLMs）为智能代理开辟了新的可能性，赋予了它们类似人类的思维和认知能力。在这项工作中，我们深入研究了大型语言模型（LLM）在自动驾驶（AD）中的潜力。我们介绍了DriveMLM，这是一个基于LLM的AD框架，可以在现实模拟器中执行闭环自动驾驶。为此，（1）我们通过根据现成的运动规划模块标准化决策状态，弥合了语言决策和车辆控制命令之间的差距。（2）我们采用多模态LLM（MLLM）对模块AD系统的行为规划模块进行建模，该模块使用驾驶规则、用户命令和来自各种传感器（如摄像头、激光雷达）的输入作为输入，做出驾驶决策并提供解释；该模型可以在现有的AD系统（如阿波罗）中即插即用，用于闭环驱动。（3）我们设计了一个有效的数据引擎来收集数据集，该数据集包括决策状态和相应的解释注释，用于模型训练和评估。我们进行了广泛的实验，结果表明我们的模型在CARLA Town05 Long上获得了76.1的驾驶分数，在相同的设置下比阿波罗基线高出4.7分，证明了我们模型的有效性。我们希望这项工作可以作为LLM自动驾驶的基准。

[16] LMDrive: Closed-Loop End-to-End Driving with Large Language Models

论文链接：https://arxiv.org/abs/2312.07488

MMLab & 商汤的工作：尽管最近在自动驾驶领域取得了重大进展，但现代方法仍然很困难，在遇到长尾不可预见的事件和具有挑战性的城市场景时，可能会发生严重事故。一方面，大型语言模型（LLM）显示出令人印象深刻的推理能力，接近“通用人工智能”。另一方面，以前的自动驾驶方法往往依赖于有限的格式输入（例如传感器数据和导航航路点），限制了车辆理解语言信息和与人类互动的能力。为此，本文介绍了LMDrive，这是一种新型的语言引导、端到端、闭环自动驾驶框架。LMDrive独特地处理和集成了多模态传感器数据和自然语言指令，使其能够在现实的教学环境中与人类和导航软件进行交互。为了促进基于语言的闭环自动驾驶的进一步研究，我们还公开发布了相应的数据集，其中包括大约64K的指令跟踪数据片段，以及测试系统处理复杂指令和具有挑战性的驾驶场景的能力的LangAuto基准。进行了广泛的闭环实验来证明LMDrive的有效性。据我们所知，我们是第一个利用LLM进行闭环端到端自动驾驶的工作。

[17] Empowering Autonomous Driving with Large Language Models: A Safety Perspective

论文链接：https://arxiv.org/abs/2312.00812

西北大学的工作：自动驾驶（AD）在长尾不可预见的驾驶场景中遇到了重大的安全障碍，主要源于AD系统内深度神经网络的不可解释性和泛化能力差，特别是在分布不均和数据不确定的情况下。为此，本文探讨了将大型语言模型（LLM）集成到AD系统中，利用其强大的常识知识和推理能力。所提出的方法采用LLM作为行为规划的智能决策者，并辅以安全验证器盾牌进行情境安全学习，以提高驾驶性能和安全性。我们在模拟环境中提出了两项关键研究：自适应LLM条件模型预测控制（MPC）和具有状态机的LLM交互式行为规划方案。与最先进的方法相比，我们的方法展示了卓越的性能和安全指标，显示了将LLM用于自动驾驶汽车的巨大潜力。

[18] ChatGPT as Your Vehicle Co-Pilot: An Initial Attempt（TIV 2023 ）

论文链接：https://ieeexplore.ieee.org/document/10286969

清华大学的工作：人机协同工作中最具挑战性的问题之一是人类意图与机器理解和执行之间的差距。大型语言模型（LLMs）在解决此类问题方面表现出了卓越的能力。在这篇文章中，我们设计了一个通用框架，将LLM嵌入作为驾驶的车辆“副驾驶”，可以根据提供的信息在满足人类意图的情况下完成特定的驾驶任务。同时，定义了一个利用工作流来处理人与车辆之间的交互，并引入了记忆机制来组织任务中涉及的信息。建议采用面向专家的黑盒调谐来提高副驾驶的性能，而无需对LLM进行微调或培训。在实验中，副驾驶被应用于两个不同的任务，即路径跟踪控制和轨迹规划。副驾驶通过选择合适的控制器或规划特定的轨迹来适应人类意图，从而调整车辆运行条件。通过仿真测试来评估所提出模块的性能和通用性。结果表明，尽管Co-Pilot并非完美无瑕，但它可以完成仅基于自然语言处理的大部分任务。最后，讨论了人机混合智能以及LLM在自动驾驶中的进一步应用。我们认为，这种框架在自动驾驶汽车领域的进一步应用中具有广阔的潜力。

[19] Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles

论文链接：https://arxiv.org/abs/2310.08034

普渡大学的工作：以人为本的设计和人工智能（AI）能力的融合为超越交通的下一代自动驾驶汽车开辟了新的可能性。这些车辆可以动态地与乘客互动，并适应他们的喜好。本文提出了一种新的框架，该框架利用大型语言模型（LLM）来增强自动驾驶汽车的决策过程。通过利用LLM的语言和上下文理解能力以及专门的工具，我们的目标是将LLM的言语和推理能力整合到自动驾驶汽车中。我们的研究包括在HighwayEnv中的实验，这是一个用于自动驾驶和战术决策任务的环境集合，旨在探索LLM在各种场景中的解释、交互和推理。我们还研究了实时个性化，展示了LLM如何基于口头命令影响驾驶行为。我们的实证结果突出了利用思维链提示的实质性优势，从而改善了驾驶决策，并显示了LLM通过持续的口头反馈来增强个性化驾驶体验的潜力。拟议的框架旨在改变自动驾驶汽车的运营方式，提供个性化支持、透明决策和持续学习，以提高安全性和有效性。通过将LLM集成到自动驾驶汽车中，我们实现了以用户为中心、透明和自适应的自动驾驶生态系统。

[20] LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving

论文链接：https://arxiv.org/pdf/2310.03026

清华&港大的工作：现有的基于学习的自动驾驶（AD）系统在理解高级信息、推广到罕见事件以及提供可解释性方面面临挑战。为了解决这些问题，这项工作采用大型语言模型（LLM）作为需要人类常识理解的复杂AD场景的决策组件。我们设计认知途径，使LLM能够进行全面推理，并开发算法，将LLM决策转化为可操作的驾驶命令。通过这种方法，LLM决策通过引导参数矩阵自适应与低级控制器无缝集成。大量实验表明，由于LLM的常识推理能力，我们提出的方法不仅在单车任务中始终优于基线方法，而且有助于处理复杂的驾驶行为，甚至多车协调。本文介绍了在安全性、效率、通用性和互操作性方面利用LLM作为复杂AD场景的有效决策者的第一步。我们希望它能为该领域的未来研究提供灵感。

[21] Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

论文链接：https://browse.arxiv.org/abs/2310.01957

Wayve的工作：大型语言模型（LLM）在自动驾驶领域显示出了希望，特别是在泛化和可解释性方面。我们引入了一种独特的目标级多模态LLM架构，该架构将矢量化数值模式与预训练的LLM相结合，以提高驾驶情况下的上下文理解能力。我们还展示了一个新的数据集，其中包含来自10k个驾驶场景的160k个QA对，以及通过RL代理收集的高质量控制命令和教师LLM（GPT-3.5）生成的问答对。设计了一种独特的预训练策略，使用矢量字幕语言数据将数值矢量模态与静态LLM表示对齐。我们还为驾驶QA引入了一个评估指标，并展示了我们的LLM驾驶员在解释驾驶场景、回答问题和决策方面的熟练程度。我们的研究结果强调了与传统的行为克隆相比，基于LLM的驾驶行为生成的潜力。我们提供基准、数据集和模型以供进一步探索。

[22] GPT-DRIVER: LEARNING TO DRIVE WITH GPT

论文链接：https://browse.arxiv.org/abs/2310.01415v1

南加州大学&清华的工作：自动驾驶的核心挑战，旨在规划安全舒适的驾驶轨迹。现有的运动规划器主要利用启发式方法来预测驾驶轨迹，但这些方法在面对新颖和未知的驾驶场景时表现出不足的泛化能力。在这篇论文中，我们提出了一种新的运动规划方法，该方法利用了大型语言模型（LLMs）固有的强大推理能力和泛化潜力。我们方法的基本见解是将运动规划重新表述为语言建模问题，这是一个以前从未探索过的视角。具体来说，我们将规划者的输入和输出表示为语言标记，并利用LLM通过坐标位置的语言描述来生成驾驶轨迹。此外，我们提出了一种新的提示推理微调策略，以激发LLM的数值推理潜力。通过这种策略，LLM可以用自然语言描述高度精确的轨迹坐标及其内部决策过程。我们在大规模nuScenes数据集上评估了我们的方法，广泛的实验证实了我们基于GPT的运动规划器的有效性、泛化能力和可解释性。代码将在验收后发布。

[23] DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models

论文链接：https://arxiv.org/abs/2309.16292

上海AI Lab&华师&港中文的工：自动驾驶的最新进展依赖于数据驱动的方法，这些方法被广泛采用，但面临着数据集偏差、过拟合和不可解释性等挑战。从人类驾驶的知识驱动性中汲取灵感，我们探索了如何将类似的能力灌输到自动驾驶系统中的问题，并总结了一个整合了交互式环境、驾驶员代理和记忆组件的范式来解决这个问题。利用具有涌现能力的大型语言模型（LLM），我们提出了DiLu框架，该框架结合了推理和反射模块，使系统能够基于常识知识进行决策并不断发展。大量的实验证明了DiLu积累经验的能力，并证明了其在泛化能力方面比基于强化学习的方法具有显著优势。此外，DiLu能够直接从真实世界的数据集中获取经验，这突显了其在实际自动驾驶系统上部署的潜力。据我们所知，我们是第一个在自动驾驶汽车决策中利用知识驱动能力的公司。通过提出的DiLu框架，LLM在自动驾驶领域的应用知识和推理能力得到了加强。

[24] Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles

论文链接：https://arxiv.org/abs/2309.10228

普渡大学的工作：自动驾驶汽车的未来在于以人为本的设计和先进的人工智能能力的融合。未来的自动驾驶汽车不仅将运送乘客，还将与乘客互动并适应他们的需求，使旅程舒适、高效、愉快。在这篇论文中，我们提出了一种利用大型语言模型（LLMs）来增强自动驾驶汽车决策过程的新框架。通过整合LLM的自然语言能力和上下文理解、专用工具的使用、协同推理以及与自动驾驶汽车上的各种模块的作用，该框架旨在将LLM的高级语言和推理能力无缝集成到自动驾驶汽车中。拟议的框架有可能彻底改变自动驾驶汽车的运行方式，提供个性化帮助、持续学习和透明决策，最终有助于实现更安全、更高效的自动驾驶技术。

[25] TrafficGPT: Viewing, Processing and Interacting with Traffic Foundation Models

论文链接：https://arxiv.org/abs/2309.06719

北航&上海AI lab的工作：随着chatgpt向公众的推广，大型语言模型确实展示了非凡的常识、推理和规划技能，经常提供有见地的指导。这些能力在城市交通管理和控制中的应用前景广阔。然而，LLM难以解决交通问题，特别是处理数值数据和与模拟交互，这限制了它们解决交通相关挑战的潜力。同时，存在专门的流量基础模型，但通常是为具有有限输入输出交互的特定任务而设计的。将这些模型与LLM相结合，可以提高其解决复杂交通相关问题的能力，并提供有见地的建议。为了弥合这一差距，我们提出了TrafficGPT，这是ChatGPT和流量基础模型的融合。这种集成带来了以下关键增强：1）赋予ChatGPT查看、分析、处理交通数据的能力，并为城市交通系统管理提供有见地的决策支持；2）促进对广泛而复杂的任务的智能解构，并顺序利用交通基础模型逐步完成；3）通过自然语言对话辅助人类在交通控制中的决策；以及4）实现交互式反馈和征求修订后的结果。通过无缝融合大型语言模型和流量专业知识，TrafficGPT不仅推进了流量管理，还提供了一种在该领域利用人工智能功能的新方法。

[26] Drive Like a Human: Rethinking Autonomous Driving with Large Language Models

论文链接：https://browse.arxiv.org/abs/2307.07162

上海AI Lab的工作：本文探讨了使用大型语言模型（LLM）以类似人类的方式理解驾驶环境的潜力，并分析了其在面对复杂场景时的推理、解释和记忆能力。我们认为，传统的基于优化和模块化的自动驾驶（AD）系统在处理长尾角情况时面临固有的性能限制。为了解决这个问题，我们建议理想的AD系统应该像人类一样驾驶，通过持续驾驶积累经验，并使用常识来解决问题。为了实现这一目标，我们确定了AD系统所需的三种关键能力：推理、解释和记忆。我们通过构建一个闭环系统来展示其理解和环境交互能力，从而证明了在驾驶场景中使用LLM的可行性。我们广泛的实验表明，LLM在推理和解决长尾案例方面表现出了令人印象深刻的能力，为类人自动驾驶的发展提供了宝贵的见解。

生成

[1] ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous Vehicles（CVPR2024）

论文链接：https://arxiv.org/abs/2405.14062

伊利诺伊大学的工作：我们介绍了ChatScene，这是一种基于大型语言模型（LLM）的代理，它利用LLM的能力为自动驾驶汽车生成安全关键场景。给定非结构化语言指令，代理首先使用LLM生成文本描述的流量场景。这些场景描述随后被分解为几个子描述，用于指定细节，如车辆的行为和位置。然后代理将文本描述的子场景独特地转换为特定领域的语言，然后生成用于模拟器中预测和控制的实际代码，从而促进在CARLA模拟环境中创建多样化和复杂的场景。我们代理的一个关键部分是一个全面的知识检索组件，它通过训练一个包含场景描述和代码对的知识数据库，将特定的文本描述高效地转换为相应的领域特定代码片段。大量的实验结果强调了ChatScene在提高自动驾驶汽车安全性方面的有效性。例如，当针对不同的基于强化学习的自我车辆进行测试时，ChatScene生成的场景显示，与最先进的基线相比，碰撞率增加了15%。此外，我们还表明，通过使用我们生成的安全关键场景来微调不同的基于RL的自动驾驶模型，它们可以将碰撞率降低9%，超过目前的SOTA方法。ChatScene有效地弥合了交通场景的文本描述与实际CARLA模拟之间的差距，为自动驾驶汽车的安全测试和改进提供了一种统一的方法，可以方便地生成安全关键场景。

[2] REvolve: Reward Evolution with Large Language Models for Autonomous Driving

https://arxiv.org/abs/2406.01309

设计有效的奖励函数对于训练强化学习（RL）算法至关重要。然而，由于某些任务的主观性很难明确量化，即使对于领域专家来说，这种设计也不是微不足道的。在最近的研究中，大型语言模型（LLM）已被用于从自然语言任务描述中生成奖励，利用其广泛的指令调整和对人类行为的常识理解。在这项工作中，我们假设在人类反馈的指导下，LLM可用于制定与人类一致的奖励函数。具体来说，我们在具有挑战性的自动驾驶（AD）环境中研究了这一点，其中“良好”驾驶的概念是隐性的，难以量化。为此，我们引入了REvolve，这是一个在AD中使用LLM进行奖励设计的进化框架。REvolve通过利用人类反馈来指导进化过程，有效地将隐含的人类知识转化为显式的奖励函数，用于训练（深度）RL代理，从而创建和细化奖励函数。我们证明，接受过REvolve设计奖励训练的智能体与人类驾驶标准高度一致，从而超越了其他最先进的基准。

[3] Generalized Predictive Model for Autonomous Driving（ECCV2024）

论文链接：https://arxiv.org/abs/2403.09630

上海AI Lab & 港科技 & 港大等团队的工作：本文介绍了自动驾驶中第一个大规模视频预测模型。为了消除高成本数据收集的限制，并增强我们模型的泛化能力，我们从网络上获取大量数据，并将其与多样化和高质量的文本描述配对。由此产生的数据集积累了2000多个小时的驾驶视频，涵盖了世界各地不同天气条件和交通场景的地区。继承了最近潜在扩散模型的优点，我们的模型被称为GenAD，它使用新颖的时间推理块来处理驾驶场景中的挑战性动态。我们展示了它可以以零样本的方式推广到各种看不见的驾驶数据集，超过了一般或特定驾驶的视频预测同行。此外，GenAD可以适应动作条件预测模型或运动规划器，在现实世界的驾驶应用中具有巨大的潜力。

[4] DriveDreamer v2 & DriveDreamer v1（ECCV2024）

论文链接：https://arxiv.org/abs/2403.06845
论文链接：https://arxiv.org/abs/2309.09777

中科院 & 极佳在生成方向的系列工作：

[5] Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents（CVPR 2024）

论文链接：https://arxiv.org/abs/2402.05746

上交 & 上海AI Lab & 卡内基梅隆 & 清华团队的工作：自动驾驶中的场景模拟因其生成定制数据的巨大潜力而受到广泛关注。然而，现有的可编辑场景模拟方法在用户交互效率、多相机照片真实感渲染和外部数字资产集成方面存在局限性。为了应对这些挑战，本文介绍了ChatSim，这是第一个通过自然语言命令和外部数字资产实现可编辑的照片级逼真3D驾驶场景模拟的系统。为了实现具有高度命令灵活性的编辑，~ChatSim利用了大型语言模型（LLM）代理协作框架。为了生成逼真的结果，ChatSim采用了一种新颖的多相机神经辐射场方法。此外，为了释放大量高质量数字资产的潜力，ChatSim采用了一种新颖的多相机光照估计方法来实现场景一致性资产的渲染。我们在Waymo Open Dataset上的实验表明，ChatSim可以处理复杂的语言命令并生成相应的照片级逼真场景视频。

[6] GenAD: Generative End-to-End Autonomous Driving（ECCV2024）

论文链接：https://arxiv.org/abs/2402.11502

加州大学伯克利分校 & Waytous & 中科院团队的工作：从原始传感器直接生成规划结果一直是自动驾驶长期以来的理想解决方案，最近引起了越来越多的关注。大多数现有的端到端自动驾驶方法将这个问题分解为感知、运动预测和规划。然而，我们认为，传统的渐进式管道仍然无法全面模拟整个交通演变过程，例如，自我汽车和其他交通参与者之间的未来互动以及先验的结构轨迹。在这篇论文中，我们探索了一种端到端自动驾驶的新范式，其中的关键是预测自我汽车和周围环境在给定过去场景的情况下是如何演变的。我们提出了GenAD，这是一个将自动驾驶转化为生成建模问题的生成框架。我们提出了一种以实例为中心的场景标记器，它首先将周围的场景转换为地图感知的实例标记。然后，我们使用变分自动编码器来学习结构潜在空间中的未来轨迹分布，以便进行轨迹先验建模。我们进一步采用时间模型来捕捉潜在空间中的主体和自我运动，以生成更有效的未来轨迹。GenAD最终通过在基于实例标记的学习结构潜在空间中采样分布，并使用学习到的时间模型生成未来，同时执行运动预测和规划。在广泛使用的nuScenes基准上进行的广泛实验表明，所提出的GenAD在以视觉为中心的端到端高效自动驾驶方面实现了最先进的性能。

[7] Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.17918

中科院自动化所的工作：在自动驾驶中，提前预测未来事件并评估可预见的风险，使自动驾驶汽车能够更好地规划其行动，提高道路上的安全性和效率。为此，我们提出了Drive WM，这是第一个与现有端到端规划模型兼容的驾驶世界模型。通过视图分解促进的联合时空建模，我们的模型在驾驶场景中生成了高保真多视图视频。基于其强大的生成能力，我们首次展示了应用世界模式进行安全驾驶规划的潜力。特别是，我们的Drive WM能够根据不同的驾驶操作驾驶进入多个未来，并根据基于图像的奖励确定最佳轨迹。对真实世界驾驶数据集的评估验证了我们的方法可以生成高质量、一致和可控的多视图视频，为真实世界的模拟和安全规划开辟了可能性。

[8] ADriver-I: A General World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.13549

旷视团队的工作：通常自动驾驶采用模块化设计，将整个堆栈分为感知、预测、规划和控制部分。虽然可以解释，但这种模块化设计往往会引入大量的冗余。最近，多模态大语言模型（MLLM）和扩散技术在理解和生成能力方面表现出了优越的性能。本文首先介绍了交错视觉动作对的概念，它统一了视觉特征和控制信号的格式。基于视觉动作对，我们构建了一个基于MLLM和自动驾驶扩散模型的通用世界模型，称为ADriver-I。它以视觉动作对为输入，自回归预测当前帧的控制信号。所生成的控制信号与历史视觉动作对一起被进一步调节以预测未来的帧。利用预测的下一帧，ADriver-I执行进一步的控制信号预测。这样的过程可以重复无数次，ADriver-I在自己创造的世界中实现了自动驾驶。在nuScenes和我们的大规模私有数据集上进行了广泛的实验。与几个构建的基线相比，ADriver-I显示出令人印象深刻的性能。我们希望我们的ADriver-I能够为未来的自动驾驶和嵌入式智能提供一些新的见解。

[9] A Language Agent for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.10813

南加州大学 & 斯坦福 & 英伟达团队的工作：人类水平的驾驶是自动驾驶的最终目标。传统方法将自动驾驶视为一种感知预测规划框架，但它们的系统并没有利用人类固有的推理能力和经验知识。在这篇论文中，我们提出了一种从当前管道的根本范式转变，利用大型语言模型（LLM）作为认知代理，将类人智能整合到自动驾驶系统中。我们的方法称为Agent Driver，通过引入可通过函数调用访问的多功能工具库、用于决策的常识和经验知识的认知记忆以及能够进行思维链推理、任务规划、运动规划和自我反思的推理引擎，改变了传统的自动驾驶管道。在LLM的支持下，我们的Agent Driver具有直观的常识和强大的推理能力，从而能够实现更细致、更人性化的自动驾驶方法。我们在大规模nuScenes基准上评估了我们的方法，广泛的实验证实，我们的代理驱动程序在很大程度上优于最先进的驱动方法。我们的方法还显示出优于这些方法的可解释性和few-shot学习能力。

[10] On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

论文链接：https://arxiv.org/abs/2311.05332

上海 AI Lab等团队的工作：对自动驾驶技术的追求取决于感知、决策和控制系统的复杂集成。传统的方法，无论是数据驱动的还是基于规则的，都因无法掌握复杂驾驶环境的细微差别和其他道路使用者的意图而受到阻碍。这一直是一个重大的瓶颈，特别是在开发安全可靠的自动驾驶所需的常识推理和细致的场景理解方面。视觉语言模型（VLM）的出现代表了实现全自动驾驶汽车的新前沿。本报告对最新最先进的VLM GPT-4V（ision）及其在自动驾驶场景中的应用进行了详尽的评估。我们探索了模型理解和推理驾驶场景、做出决策并最终以驾驶员的身份行事的能力。我们的综合测试涵盖了从基本场景识别到复杂因果推理和在不同条件下的实时决策。我们的研究结果表明，与现有的自主系统相比，GPT-4V在场景理解和因果推理方面表现出色。它展示了在真实驾驶环境中处理配送外场景、识别意图和做出明智决策的潜力。然而，挑战仍然存在，特别是在方向识别、交通灯识别、视觉基础和空间推理任务方面。这些局限性凸显了进一步研究和开发的必要性。

[11] MagicDrive: Street View Generation with Diverse 3D Geometry Control（ICLR 2024）

论文链接：https://arxiv.org/abs/2310.02601

港中文 & 港科技 & 华为诺亚团队的工作：扩散模型的最新进展显著增强了2D控制的数据合成。然而，对于3D感知任务至关重要的街景生成中的精确3D控制仍然难以捉摸。具体来说，将鸟瞰图（BEV）作为主要条件通常会导致几何控制（如高度）方面的挑战，影响目标形状、遮挡模式和路面高度的表示，所有这些对于感知数据合成至关重要，特别是对于3D目标检测任务。在本文中，我们介绍了MagicDrive，这是一种新颖的街景生成框架，它提供了多种3D几何控件，包括相机姿态、道路地图和3D边界框，以及通过定制编码策略实现的文本描述。此外，我们的设计还包含了一个交叉视图注意力模块，确保了多个摄像头视图的一致性。通过MagicDrive，我们实现了高保真的街景图像和视频合成，捕捉到细微的3D几何和各种场景描述，增强了BEV分割和3D目标检测等任务。

[12] DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

论文链接：https://arxiv.org/abs/2310.07771

百度的工作：随着基于强大和统一的鸟瞰图（BEV）表示的自动驾驶的日益普及，迫切需要具有精确注释的高质量和大规模多视图视频数据。然而，由于昂贵的收集和注释成本，很难获得如此大规模的多视图数据。为了缓解这个问题，我们提出了一种时空一致的扩散框架DrivingDiffusion，以生成由3D布局控制的逼真多视图视频。在给定3D布局的情况下合成多视图视频时有三个挑战：如何保持1）跨视图一致性和2）跨帧一致性？3）如何保证生成实例的质量？我们的DrivingDiffusion通过级联多视图单帧图像生成步骤、多个相机共享的单视图视频生成步骤以及可以处理长视频生成的后处理来解决这个问题。在多视图模型中，通过相邻摄像机之间的信息交换来确保多视图图像的一致性。在时间模型中，我们主要从第一帧的多视图图像中查询后续帧生成中需要注意的信息。我们还引入了本地提示，以有效提高生成实例的质量。在后处理中，我们进一步增强了后续帧的交叉视图一致性，并通过采用时间滑动窗口算法扩展了视频长度。在没有任何额外成本的情况下，我们的模型可以在复杂的城市场景中生成大规模逼真的多摄像头驾驶视频，为下游的驾驶任务提供动力。

[13] GAIA-1: A Generative World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.17080

Wayve的工作：自动驾驶有望为交通带来革命性的改善，但构建能够安全地应对现实世界场景的非结构化复杂性的系统仍然具有挑战性。一个关键问题在于有效地预测随着世界的发展，车辆行动可能会出现的各种潜在结果。为了应对这一挑战，我们引入了GAIA-1（“自主生成人工智能”），这是一种生成世界模型，利用视频、文本和动作输入生成逼真的驾驶场景，同时对自我车辆行为和场景特征提供精细控制。我们的方法通过将输入映射到离散令牌，并预测序列中的下一个令牌，将世界建模转化为无监督的序列建模问题。我们模型中的新兴属性包括学习高级结构和场景动力学、上下文感知、泛化和几何理解。GAIA-1的学习表征能够捕捉到对未来事件的预期，再加上其生成真实样本的能力，为自动驾驶领域的创新提供了新的可能性，从而增强和加速了自动驾驶技术的训练。

[14] Language-Guided Traffic Simulation via Scene-Level Diffusion

论文链接：https://arxiv.org/abs/2306.06344

哥伦比亚大学 & 英伟达等团队的工作：真实可控的交通仿真是加速自动驾驶汽车（AV）发展所必需的核心能力。然而，目前控制基于学习的流量模型的方法需要大量的领域专业知识，从业者很难使用。为了解决这个问题，我们提出了CTG++，这是一种可以由语言指令引导的场景级条件扩散模型。发展这一点需要应对两个挑战：需要一个现实可控的交通模型骨干网，以及一种使用语言与交通模型进行交互的有效方法。为了应对这些挑战，我们首先提出了一种配备时空变换器骨干的场景级扩散模型，该模型可以生成真实可控的流量。然后，我们利用大型语言模型（LLM）将用户的查询转换为损失函数，引导扩散模型生成符合查询的查询。通过综合评估，我们证明了我们提出的方法在生成逼真、符合查询的交通模拟方面的有效性。

[1] A Superalignment Framework in Autonomous Driving with Large Language Models

论文链接：https://arxiv.org/abs/2406.05651

在过去的一年里，大型语言模型（LLM）和多模态大型语言模型的领域取得了重大进展，特别是在它们在自动驾驶中的应用方面。这些模型在处理和交互复杂信息方面表现出了非凡的能力。在自动驾驶中，LLM和MLLM被广泛使用，需要访问敏感的车辆数据，如精确的位置、图像和路况。这些数据被传输到基于LLM的推理云进行高级分析。然而，人们对数据安全产生了担忧，因为防止数据和隐私泄露主要取决于LLM的固有安全措施，而没有对LLM的推理输出进行额外的审查或评估。尽管它很重要，但LLM在自动驾驶中的安全方面仍然没有得到充分的探索。为了弥补这一差距，我们的研究引入了一种新的自动驾驶汽车安全框架，利用多代理LLM方法。该框架旨在保护与自动驾驶汽车相关的敏感信息免受潜在泄露，同时确保LLM输出符合驾驶法规并符合人类价值观。它包括过滤掉不相关查询并验证LLM输出的安全性和可靠性的机制。利用这个框架，我们评估了11个大型语言模型驱动的自动驾驶线索的安全性、隐私性和成本方面。此外，我们对这些驾驶提示进行了QA测试，成功证明了该框架的有效性。

[2] Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving

论文链接：https://arxiv.org/abs/2403.19838

视觉语言模型（VLM）和多模态语言模型（MMLM）在自动驾驶研究中已经变得突出，因为这些模型可以使用交通场景图像和其他数据模式为端到端的自动驾驶安全任务提供可解释的文本推理和响应。然而，目前这些系统的方法使用昂贵的大型语言模型（LLM）骨干和图像编码器，这使得这些系统不适合实时自动驾驶系统，因为存在严格的内存限制，需要快速的推理时间。为了解决这些先前的问题，我们开发了EM-VLM4AD，这是一种高效、轻量级的多帧视觉语言模型，可以为自动驾驶执行视觉问答。与以前的方法相比，EM-VLM4AD所需的内存和浮点运算至少减少了10倍，同时还实现了比DriveLM数据集上的现有基线更高的CIDEr和ROUGE-L分数。EM-VLM4AD还具有从与提示相关的交通视图中提取相关信息的能力，并可以回答各种自动驾驶子任务的问题。

[3] Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

论文链接：https://arxiv.org/abs/2401.00988

港大&华为诺亚的工作：多模态大型语言模型（MLLM）的兴起激发了人们对基于语言的驾驶任务的兴趣。然而，现有的研究通常只关注有限的任务，往往忽略了对鲁棒自动驾驶至关重要的关键多视图和时间信息。为了弥合这些差距，我们引入了NuInstruct，这是一个新的数据集，在17个子任务中有91K个多视图视频QA对，其中每个任务都需要整体信息（例如时间、多视图和空间），大大提高了挑战水平。为了获得NuInstruct，我们提出了一种基于SQL的自动生成指令-响应对的新方法，其灵感来自人类驱动的逻辑进程。我们进一步介绍了BEV-InMLLM，这是一种端到端的方法，用于有效地导出指令感知的鸟瞰图（BEV）特征，为大型语言模型进行语言对齐。BEV-InMLLM集成了多视图、空间感知和时间语义，以增强MLLM在NuInstruct任务上的能力。此外，我们提出的BEV注入模块是现有MLLM的即插即用方法。我们在NuInstruct上的实验表明，BEV-InMLLM明显优于现有的MLLM，例如在各种任务上提高了约9%。我们计划发布NuInstruct以供未来的研究开发。

[4] DriveLM: Driving with Graph Visual Question Answering（ECCV2024）

论文链接：https://arxiv.org/abs/2312.14150v2

上海AI Lab&图宾根大学的工作：我们研究了如何将基于网络规模数据训练的视觉语言模型（VLM）集成到端到端的驱动系统中，以提高泛化能力并实现与人类用户的交互。虽然最近的方法使VLM适应通过单轮视觉问答（VQA）进行驾驶，但人类驾驶员会通过多个步骤对决策进行推理。从关键目标的定位开始，人类在采取行动之前估计目标的相互作用。关键的见解是，通过我们提出的任务Graph VQA，我们通过感知、预测和规划问答对对对图结构推理进行建模，我们获得了一个合适的代理任务来模仿人类的推理过程。我们实例化了基于nuScenes和CARLA构建的数据集（DriveLM Data），并提出了一种基于VLM的基线方法（DriveLM Agent），用于联合执行Graph VQA和端到端驱动。实验表明，Graph VQA为驾驶场景的推理提供了一个简单、有原则的框架，而DriveLM Data为这项任务提供了具有挑战性的基准。与最先进的驾驶专用架构相比，我们的DriveLM Agent基线在端到端自动驾驶方面具有竞争力。值得注意的是，当它在看不见的物体或传感器配置上进行零样本评估时，它的优势是显著的。我们希望这项工作能够成为如何将VLM应用于自动驾驶的新思路的起点。为了便于未来的研究，所有代码、数据和模型都向公众开放。

[5] LingoQA: Video Question Answering for Autonomous Driving

论文链接：https://arxiv.org/abs/2312.14115

Wayve的工作：由于决策过程中缺乏可解释性，自动驾驶长期以来一直面临着公众接受度的挑战。自然语言视频问答（QA）为弥合这一差距提供了机会。尽管如此，由于缺乏全面的基准，评估视频质量保证模型的性能被证明特别困难。为了填补这一空白，我们引入了LingoQA，这是一个专门用于自动驾驶视频QA的基准。LingoQA可训练指标与人类评估的Spearman相关系数为0.95。我们介绍了一个伦敦市中心的视频质量保证数据集，由我们随论文发布的419k个样本组成。我们建立了一个基线视觉语言模型，并进行了广泛的消融研究，以了解其性能。

[6] Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

论文链接：https://arxiv.org/abs/2312.03661

复旦&华为诺亚的工作：大型视觉语言模型（VLM）在自动驾驶领域引起了越来越多的兴趣，因为它们在高度自动驾驶车辆行为所必需的复杂推理任务中具有先进的能力。尽管有潜力，但由于缺乏带有注释推理链的数据集来解释驾驶中的决策过程，自主系统的研究受到了阻碍。为了弥合这一差距，我们提出了Reason2Drive，这是一个拥有超过60万个视频文本对的基准数据集，旨在促进复杂驾驶环境中可解释推理的研究。我们明确地将自动驾驶过程描述为感知、预测和推理步骤的顺序组合，问答对是从各种开源户外驾驶数据集中自动收集的，包括nuScenes、Waymo和ONCE。此外，我们引入了一种新的聚合评估度量来评估自治系统中基于链的推理性能，解决了BLEU和CIDEr等现有度量的语义歧义问题。基于所提出的基准，我们进行了实验来评估各种现有的VLM，揭示了它们的推理能力。此外，我们开发了一种有效的方法，使VLM能够在特征提取和预测中利用目标级感知元素，进一步提高其推理准确性。代码和数据集将被发布。

[7] Dolphins: Multimodal Language Model for Driving

论文链接：https://arxiv.org/abs/2312.00438

英伟达&斯坦福的工作：寻求能够以人类般的理解和响应能力在复杂的现实世界场景中导航的全自动驾驶汽车（AV）。在这篇论文中，我们介绍了海豚，这是一种新颖的视觉语言模型，旨在吸收类人能力作为对话式驾驶助手。海豚擅长处理包括视频（或图像）数据、文本指令和历史控制信号的多模式输入，以生成与所提供指令相对应的知情输出。基于开源的预训练视觉语言模型OpenFlamingo，我们首先通过创新的扎根思维链（GCoT）过程增强海豚的推理能力。然后，我们通过构建特定于驾驶的指令数据和进行指令调优，将海豚定制到驾驶领域。通过使用BDD-X数据集，我们将四个不同的AV任务设计并整合到海豚中，以促进对复杂驾驶场景的全面理解。因此，海豚的独特特征可以分为两个方面：（1）能够全面理解复杂和长尾的开放世界驾驶场景，并解决一系列AV任务，以及（2）出现类似人类的能力，包括通过上下文学习实现无梯度即时适应和通过反射实现错误恢复。

[8] Human-Centric Autonomous Systems With LLMs for User Command Reasoning

论文链接：https://arxiv.org/abs/2311.08206

瑞典皇家理工学院的工作：近年来，自动驾驶技术的发展取得了显著进步，逐渐成为现实。然而，以人为中心的大规模采用取决于满足各种多方面的要求。为了确保自主系统满足用户的意图，准确识别和解释用户命令至关重要，特别是在复杂或紧急情况下。为此，我们建议利用大型语言模型（LLM）的推理能力，从舱内用户的命令中推断系统需求。通过一系列包括不同LLM模型和提示设计的实验，我们探索了自然语言文本命令对系统需求的少镜头多元二元分类准确性。我们确认了LLM理解和推理提示的一般能力，但强调其有效性取决于LLM模型的质量和适当顺序提示的设计。

[9] Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

论文链接：https://arxiv.org/abs/2310.02251

Talk2BEV是一个用于自动驾驶环境中鸟瞰图（BEV）的大型视觉语言模型（LVLM）接口。虽然现有的自动驾驶场景感知系统主要关注一组预定义的（封闭的）目标类别和驾驶场景，但Talk2BEV将通用语言和视觉模型的最新进展与BEV结构化地图表示相结合，消除了对特定任务模型的需求。这使得单个系统能够满足各种自动驾驶任务，包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决策。我们广泛评估了Talk2BEV在大量场景理解任务上的表现，这些任务既依赖于解释自由形式的自然语言查询的能力，也依赖于将这些查询与嵌入语言增强BEV图中的视觉上下文相结合。为了能够进一步研究用于自动驾驶场景的LVLM，我们开发并发布了Talk2BEV Bench，这是一个包含1000个人类注释的BEV场景的基准，其中包含来自NuScenes数据集的20000多个问题和地面真实答案。

[10] Domain Knowledge Distillation from Large Language Model: An Empirical Study in the Autonomous Driving Domain

论文链接：https://arxiv.org/abs/2307.11769

基于工程知识（或专家）的系统需要大量的人工劳动和领域知识。由于大型语言模型（LLM）是使用大量跨领域知识进行训练的，因此可以自动化这些工程过程。本文提出了一种使用提示工程和LLM ChatGPT进行领域知识提取的经验自动化和半自动化框架。我们在自动驾驶领域实证评估了该框架，并提出了我们的主要观察结果。在我们的实现中，我们通过与ChatGPT“聊天”来构建领域知识本体。关键发现是，虽然完全自动化的领域本体构建是可能的，但人工监督和早期干预通常会提高效率和输出质量，因为它们可以减少响应随机性和蝴蝶效应的影响。因此，我们还开发了一种基于网络的蒸馏助手，可以在运行时进行监督和灵活干预。我们希望我们的发现和工具能够激励未来的研究，使基于知识的系统工程在应用领域发生革命性的变化。

预测

[1] LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models

论文链接：https://arxiv.org/abs/2403.18344

港科技等团队的工作：为确保在动态环境中安全驾驶，自动驾驶汽车应具备提前准确预测周围车辆变道意图并预测其未来轨迹的能力。现有的运动预测方法有足够的改进空间，特别是在长期预测精度和可解释性方面。在本文中，我们通过提出LC-LLM来应对这些挑战，LC-LLM是一种可解释的车道变更预测模型，它利用了大型语言模型（LLM）的强大推理能力和自我解释能力。本质上，我们将变道预测任务重新表述为语言建模问题，以自然语言处理异构驾驶场景信息作为输入LLM的提示，并采用监督微调技术专门为我们的变道预测工作定制LLM。这使我们能够利用LLM强大的常识推理能力来理解复杂的交互信息，从而提高长期预测的准确性。此外，我们在推理阶段将解释性要求纳入提示中。因此，我们的LC-LLM模型不仅可以预测变道意图和轨迹，还可以为其预测提供解释，从而提高了可解释性。在大规模高D数据集上的广泛实验证明了我们的LC-LLM在车道变换预测任务中的卓越性能和可解释性。据我们所知，这是首次尝试利用LLM预测变道行为。我们的研究表明，LLM可以为驾驶行为理解编码全面的交互信息。

[2] GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models

论文链接：https://arxiv.org/abs/2312.03543

在自动驾驶汽车（AV）领域，准确识别指挥官意图并在视觉环境中执行语言命令是一项重大挑战。本文介绍了一种复杂的编解码器框架，旨在解决自动驾驶汽车中的视觉Grounding问题。我们的上下文感知视觉Grounding（CAVG）模型是一个先进的系统，它将五个核心编码器文本、图像、上下文和交叉模态与多模态解码器集成在一起。这种集成使CAVG模型能够熟练地捕捉上下文语义并学习人类情感特征，并通过包括GPT-4在内的最先进的大型语言模型（LLM）进行增强。CAVG的架构通过实现多头交叉模式注意力机制和用于注意力调制的区域特定动态（RSD）层得到了加强。这种架构设计使模型能够有效地处理和解释一系列跨模态输入，从而全面了解口头命令和相应视觉场景之间的相关性。对真实世界基准Talk2Car数据集的实证评估表明，CAVG在预测准确性和操作效率方面建立了新的标准。值得注意的是，即使在训练数据有限的情况下，该模型也表现出了卓越的性能，从整个数据集的50%到75%不等。此功能突出了其在实际AV应用中的有效性和部署潜力。此外，CAVG在具有挑战性的场景中表现出了显著的鲁棒性和适应性，包括长文本命令解释、低光照条件、模糊的命令上下文、恶劣的天气条件和人口稠密的城市环境。

[3] Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving

论文链接：https://arxiv.org/abs/2309.05282

博世的工作：在自动驾驶任务中，场景理解是预测周围交通参与者未来行为的第一步。然而，如何表示给定的场景并提取其特征仍然是悬而未决的研究问题。在这项研究中，我们提出了一种新的基于文本的交通场景表示方法，并使用预训练的语言编码器对其进行处理。首先，我们证明了基于文本的表示与经典的光栅化图像表示相结合，可以实现描述性的场景嵌入。其次，我们在nuScenes数据集上对我们的预测进行基准测试，并显示出与基线相比的显著改进。第三，我们在一项消融研究中表明，文本和光栅化图像的联合编码器优于单个编码器，这证实了这两种表示都有互补的优势。

[4] MTD-GPT: A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections

论文链接：https://arxiv.org/abs/2307.16118

同济 & 清华的工作：自动驾驶技术有望改变交通系统。然而，在无信号交叉口等复杂场景中实现安全准确的多任务决策仍然是自动驾驶汽车面临的挑战。本文提出了一种新的方法来解决这个问题，即开发一个多任务决策生成预训练变换器（MTD-GPT）模型。MTD-GPT模型利用强化学习（RL）的固有优势和生成预训练变换器（GPT）的复杂序列建模能力，旨在同时管理多个驾驶任务，如左转、直行和无信号交叉口的右转。我们最初训练一个单任务RL专家模型，在环境中采样专家数据，随后利用混合多任务数据集进行离线GPT训练。该方法将自动驾驶中的多任务决策问题抽象为序列建模任务。MTD-GPT模型在多个决策任务中进行了训练和评估，其性能优于或可与最先进的单任务决策模型相媲美。

检测

[1] AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving（CVPR 2024）

论文链接：https://arxiv.org/abs/2403.17373

西北大学等团队的工作：自动驾驶汽车（AV）系统依赖于稳健的感知模型作为安全保证的基石。然而，在路上遇到的物体呈现出长尾分布，罕见或看不见的类别对部署的感知模型构成了挑战。这需要一个昂贵的过程，即用大量的人力持续整理和注释数据。我们建议利用视觉语言和大型语言模型的最新进展来设计一个自动数据引擎（AIDE），该引擎可以自动识别问题，有效地管理数据，通过自动标签改进模型，并通过生成不同的场景来验证模型。这个过程迭代运行，允许模型的持续自我改进。我们还为AV数据集上的开放世界检测建立了一个基准，以全面评估各种学习范式，以降低成本展示了我们的方法的卓越性能。

[2] HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.05186

港科技 & 华为诺亚的工作：自动驾驶系统通常为不同的任务采用单独的模型，从而产生复杂的设计。我们首次利用单一多模态大型语言模型（MLLM）整合视频中的多个自动驾驶任务，即风险目标定位和意图与建议预测（ROLISP）任务。ROLISP使用自然语言同时识别和解释风险目标，理解自我车辆意图，并提供运动建议，从而消除了特定任务架构的必要性。然而，由于缺乏高分辨率（HR）信息，现有的MLLM在应用于ROLISP时往往会错过小物体（如交通锥），并过度关注突出物体（如大型卡车）。我们提出了HiLM-D（迈向自动驾驶MLLM的高分辨率理解），这是一种将HR信息整合到MLLM中以完成ROLISP任务的有效方法。特别是，HiLM-D集成了两个分支：（i）低分辨率推理分支，可以是任何MLLM，处理低分辨率视频以说明风险目标并辨别自我车辆意图/建议；（ii）HiLM-D中突出的高分辨率感知分支（HR-PB）通过捕获视觉特定的HR特征图并将所有潜在风险优先于仅突出的目标来摄取HR图像以增强检测。我们的HR-PB是一个即插即用模块，可无缝安装到当前的MLLM中。在ROLISP基准上的实验表明，HiLM-D比领先的MLLM具有显著的优势，在BLEU-4中用于字幕的改进率为4.8%，在mIoU中用于检测的改进率达到17.2%。

跟踪

[1] Language Prompt for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.04379

北理工 & 旷视等团队的工作：计算机视觉领域的一个新趋势是根据自然语言提示所表示的灵活的人类命令来捕捉感兴趣的目标。然而，由于成对提示实例数据的稀缺，在驾驶场景中使用语言提示的进展陷入了瓶颈。为了应对这一挑战，我们提出了第一个以目标为中心的语言提示集，用于在3D、多视图和多帧空间中驱动场景，名为NuPrompt。它通过构建总共35367种语言描述来扩展Nussenes数据集，每种语言描述平均涉及5.3个目标轨迹。基于新基准测试中的目标-文本对，我们制定了一个新的基于提示的驾驶任务，即使用语言提示来预测所描述的目标在视图和帧之间的轨迹。此外，我们提供了一个基于Transformer的简单端到端基线模型，名为PromptTrack。实验表明，我们的PromptTrack在NuPrompt上取得了令人印象深刻的性能。我们希望这项工作能为自动驾驶社区提供更多新的见解。

评测

[1] KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models

论文链接：https://arxiv.org/abs/2407.14239

[2] Evaluation of Large Language Models for Decision Making in Autonomous Driving

论文链接：https://arxiv.org/pdf/2312.06351.pdf

[3] GPT-4V Takes the Wheel: Evaluating Promise and Challenges for Pedestrian Behavior Prediction

论文链接：https://arxiv.org/abs/2311.14786

其他

[1] Embodied Understanding of Driving Scenarios

论文链接：https://arxiv.org/abs/2403.04593

[2] AccidentGPT: Accident Analysis and Prevention from V2X Environmental Perception with Multi-modal Large Model

论文链接：https://arxiv.org/abs/2312.13156

[3] Large Language Models for Autonomous Driving: Real-World Experiments

论文链接：https://arxiv.org/abs/2312.09397

[4] DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

论文链接：https://arxiv.org/abs/2310.01412

[5] ADAPT: Action-aware Driving Caption Transformer

论文链接：https://arxiv.org/abs/2302.00673

[6] Probing Multimodal LLMs as World Models for Driving

论文链接：https://arxiv.org/abs/2405.05956

数据集汇总

[1] Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

论文链接：https://arxiv.org/abs/2309.06597

[2] DriveLM: Drive on Language（ECCV 2024）

项目主页：https://github.com/OpenDriveLab/DriveLM

[3] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario

论文链接：https://arxiv.org/abs/2305.14836

[4] DRAMA: Joint Risk Localization and Captioning in Driving

论文链接：https://arxiv.org/abs/2209.10767

[5] Language Prompt for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.04379

[6] Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

论文链接：https://browse.arxiv.org/abs/2310.01957

开发板商城天皓智联 TB设备哦~

#SLAM中很多使用四元数而不使用李代数~优势是什么

wuRDmemory

楼主的问题不太对吧?

楼主应该问为什么用四元数而不是李群吧?李代数是李群在幺元处的切空间，其实本质上也是矩阵（[a]^组成的空间），虽然很多书都说可以把李代数看做一个向量空间，但是实际上李代数是一个反对称矩阵组成的空间，只不过两者一一对应；

而通常SLAM中优化问题解得增量是旋转向量，可不是真正意义上的李代数，而旋转向量与四元数之间的转换关系更简单，仅仅就是除2并进行三角函数运算；

那么退一步，如果楼主问的是为什么不用旋转向量而是用四元数?

个人认为是说

旋转向量虽然是最小表示，但真正在做向量旋转时候还是要用旋转矩阵，所以还是要把旋转向量通过罗德里格斯公式变为旋转矩阵，而四元数有现成的运算；
求得增量之后四元数的更新也比李群表示的更新方便快捷很多，同时四元数仅仅存四个数就可以，比存储李群那样的矩阵要方便一些；
从便于理解的角度来说，我们最容易感受的其实是欧拉角，而不是旋转向量表示的给你一个旋转轴和旋转角度，那么从这个角度出发，四元数依旧是直接的公式，而旋转向量依旧需要一步罗德里格斯公式；

总结来说，我个人认为两者皆可表示旋转，只不过四元数有更多现成的运算，不必像旋转向量（或者楼主所说的李代数）一样处处罗德里格斯。

最后还需要说明一下的是，李代数必须是李群（也就是旋转矩阵）在幺元处的切空间，如果用李代数就意味着你算法后续的扰动都是在global系下的，而不能是local系下的，这点要特别注意。

马丁当

如果使用角轴表示旋转，每次新的角速度测量来了之后，你需要：

把角轴转换成旋转矩阵，罗德里格斯公式。
把角速度测量转换成旋转矩阵，可以罗德里格斯公式，也可以一阶近似。
旋转矩阵相乘。
把矩阵正则化（SVD分解，或者转换成四元数正则化，暂时不知道比较高效的方式）。
矩阵转变成角轴表达（反三角函数）。

如果使用四元数表达，则需要：

角速度转换成四元数，可以用三角函数得到相对精确的表达，也可以直接一阶近似。
四元数相乘。
四元数正则化，直接除以模即可，非常简单。

另外一种使用旋转矩阵表达的方式，占用储存空间多，好在不用频繁调用罗德里格斯公式。正则化的时候还是需要转换成四元数正则化，那么不如直接四元数表达。

IMU测量又比较频繁，100Hz到1000Hz不等，又多在嵌入式系统里，所以最终选择下来大家都用四元数了。

刘一梦

1、在非线性优化问题里，一般使用李代数会好一些。这是因为优化问题最终就是求H，从而也就是要求雅克比矩阵J。在李代数下，J的扰动求导是很方便且现成的，而用四元数求导比较麻烦，在计算精度上李代数也更高。一般优化得到增量的估计（李代数）之后，先指数映射转到李群，然后在李群上做乘法。

2、在滤波问题上，首先KF不能用四元数，因为四元数是非线性的。可以用EKF，但是以四元数为状态变量的话其雅克比矩阵也比较复杂（有没有用四元数为状态量进行EKF的呢？其实是有的，是在无人机里常出现的，直接用全量而不是误差量进行建模的情况，比如直接用姿态的四元数做状态量），最常用的是ESKF的形式。为什么要用errorState呢，errorState有很多优点，但我觉得最重要的是误差状态方程是近似线性的，所以可以直接用卡尔曼滤波（注意，eskf并不是扩展卡尔曼滤波，而是KF）,而且测量更新部分的雅克比矩阵的计算也非常简单计算，因为errorState总是很小的，所以高阶项可以忽略。

008

主要原因是。

对于最优化问题，我们需要对参数Θ不断做加减法，去迭代一个Θ，使得损失函数 F(Θ)最小。

而四元素自身是带有约束，不能简单地做加减法。它作为优化变量时，会引入额外的约束，使得优化变得困难。通过李群和李代数之间的转换关系，可以把位姿估计变为无约束的优化问题，简化求解方式。

李代数只能以增量Δ的形式作为优化变量，利用李代数的优化，要优化的参数，是一个增量Δ。李代数的逻辑R没法对李代数φ雅可比，而要用R*ΔR李代数φ雅可比。比如说我想得到一个R使得F(R)最小，李代数的思路是求一个增量ΔR对应的李代数，不断迭代ΔR对应的李代数φ，使得R = R.ΔR、F(R)最小。

基于李代数只优化增量的尿性，对于普通的EKF这种，直接利用李代数没法做，因为李代数的逻辑R没法对李代数φ雅可比，而要用R*ΔR李代数φ雅可比。用李代数做卡尔曼滤波的话得用ESKF这种增量表达式的方法。

但四元素可以直接R对q求导，就适合直接使用EKF，同样ESKF也可以使用四元素。

总结就是，使用普通EKF做位姿优化李代数干不了四元素能干，ESKF的话李代数和四元素都能干，最优化的话李代数能干但四元素不能干。

当然，在可以保证处理好旋转顺归和可以避免万向锁的情况下，欧拉角用着可谓是一个爽。

BigWaterMelon

在工程上，四元数和矩阵形式相比有以下好处：

仅需四个浮点数表示。占用内存比旋转矩阵更小，乘积操作更快。
可以用向量形式表征。适合集成在卡尔曼滤波类算法中，更新时可使用计算成本较低的加和操作（仍需一步矫正，使其满足模长为1的约束）。
一些球面差值的表达式更简洁。

#DIVA

Diffusion反馈强势助力CLIP秒变火眼金睛！北京智源&中科院自动化所

本文分享论文Diffusion Feedback Helps CLIP See Better，专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。

作者：王文轩（中科院自动化所-智源研究院联培博一研究生），孙泉（智源研究院视觉模型研究中心算法研究员），张帆（智源研究院视觉模型研究中心算法研究员），唐业鹏（北交博一研究生），刘静（中科院自动化所研究员），王鑫龙（智源研究院视觉模型研究中心负责人）
单位：中科院自动化所，中国科学院大学，北京智源人工智能研究院，北京交通大学
论文链接：https://arxiv.org/abs/2407.20171
项目主页：https://rubics-xuan.github.io/DIVA/
相关代码链接：https://github.com/baaivision/DIVA

动机何在？——CLIP视觉缺陷

51c自动驾驶~合集11_自动驾驶

对比语言-图像预训练（CLIP）在跨领域和跨模态的开放世界表示方面表现出色，已成为各种视觉和多模态任务的基础。

自从CLIP被提出以来，近年来涌现了许多关于CLIP模型的后续研究。这些研究通过预训练和微调CLIP模型，取得了性能提升并开发了新的能力。然而，这些方法仍然存在不可避免的局限性，因为它们高度依赖于图像-文本数据对，无法仅在图像数据上实现预期效果。

此外，最近的不少研究指出，尽管CLIP在零样本任务中表现出色，但由于对比学习范式和训练中使用的噪声图像-文本对，其在感知理解方面存在一些局限性。这些局限性包括难以准确理解长文本和难以辨别相似图像中的细微差异。虽然一些研究试图解决长文本理解问题，但改善CLIP的细粒度视觉感知能力的研究仍然不足。感知视觉细节的能力对于基础模型至关重要，而CLIP在这方面的不足直接影响了以CLIP作为视觉编码器的视觉和多模态模型的表现。

因此，在这项工作中，我们专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。基于文本到图像的扩散模型能够生成具有丰富细节逼真图像的先验，我们探索了利用扩散模型的生成反馈来优化CLIP表征的潜力。

如何解决？——Diffusion Feedback来优化CLIP视觉细节表征

51c自动驾驶~合集11_自动驾驶_02

我们提出了一种简单的CLIP模型后训练方法，通过自监督扩散过程在很大程度上克服了其视觉缺陷。通过使用CLIP的密集视觉特征对扩散模型进行条件化，并将重建损失应用于CLIP优化，我们将扩散模型作为CLIP的视觉助手，因此我们将该框架命名为DIVA。

具体而言，如图2所示，DIVA主要由两个部分组成：一是需要增强视觉感知能力的CLIP模型，二是提供生成反馈的预训练扩散模型。输入原始图像和空文本（图2中标记为'Null'）后，CLIP模型会编码相应的视觉特征，这些特征将与来自扩散模型文本编码器的空文本嵌入结合，为扩散过程提供条件。对于添加了噪声的图像，扩散模型尝试在上述条件下预测从前一步到当前步骤中添加的噪声。在训练过程中，除了CLIP模型外，所有部分的权重都保持不变，训练目标只是最小化重建损失（即扩散反馈指导）。通过这种方式，通过约束扩散模型更准确地预测添加的噪声，CLIP的原始语义丰富的判别表示将通过扩散反馈逐渐优化为包含更多视觉细节的表示。

此外更有意思的是，DIVA不需要额外的文本标注数据，只需可轻易获取的纯图片数据就能大幅使得CLIP弥补其视觉感知短板，这一点相比之前方法收集大量图文数据对的高昂成本是非常难得的！

效果如何？——立竿见影！

为了评估DIVA的有效性并展示其增强CLIP表示的潜力，我们在多模态理解和视觉感知任务上进行了全面的实验。

51c自动驾驶~合集11_自动驾驶_03

视觉细粒度感知方面

为了验证DIVA能够有效缓解CLIP模型固有的视觉能力不足，我们首先在各种现有的CLIP模型上进行了实验。DIVA在评估视觉-语言模型视觉能力的MMVP-VLM基准测试中使得现有的多个CLIP模型的性能取得了显著的提升（提高了3-7%）。

51c自动驾驶~合集11_自动驾驶_04

作为更强的视觉骨干网络为多模态大模型和视觉模型带来的收益评估

接下来，在DIVA的帮助下，我们进一步评估了增强后的CLIP骨干网络在多模态理解和视觉感知任务中带来的性能提升。DIVA的优势在于它不仅仅能让CLIP变聪明，还能让那些基于CLIP的大型多模态语言模型以及视觉模型变得更加厉害。在这些多模态和纯视觉的基准测试上准确率的显著提升，得益于我们DIVA范式通过生成反馈大幅增强了CLIP的视觉感知能力。

51c自动驾驶~合集11_自动驾驶_05

CLIP泛化能力评估

在全面验证了我们的方法提升CLIP模型细粒度视觉感知能力的效果后，我们进行了CLIP模型原始泛化能力的全面评估。在只由纯图片数据驱动整个框架的前提上，DIVA能够保持CLIP原本优秀的泛化性能。29个图片分类和图文检索的基准测试上无论是看图识物还是找图配字的实验结果都能证明，经过DIVA优化视觉表征之后的CLIP模型能够保留CLIP原本优秀的泛化能力。

51c自动驾驶~合集11_自动驾驶_06

未来展望？——大有可为！

当前局限

数据和模型规模可进一步扩展。
由于这篇工作只是该方向的一个开始，目前仅展示了生成扩散模型用于提升CLIP模型表示的潜力，当前主要关注设计一个简单但有效的框架。

未来可探讨的方向

可以结合更细粒度的监督方案进一步提升CLIP模型的能力。
扩展超越图像-文本数据的其他模态，如视频和音频。
发展基于扩散模型的更通用、更强大的框架，以增强视觉-语言基础模型。

#杂文哦~

如何看待稚晖君的时间管理水平？

原文链接：https://www.zhihu.com/question/491456524/answer/2183081310

稚晖君究竟是如何安排业余时间去做这么多高水平的项目？而且每个项目的用时也很少，普通人能够从中借鉴一些经验吗？

1 作者：AI产品经理Santo

应用稚晖君的时间管理方法，确实可以帮助你有效的节省时间。

这里我把之前他直播中，对于时间管理的看法引用到这里。[1]

提问者——

大家都惊讶于你可以很好的平衡工作和兴趣，请问您是如何进行时间管理的？

下面是稚晖君的回答——

“时间管理”这个词有点过分了，其实，也没有什么管理技巧啦。工作效率或者说学习效率，这个东西是相对的。

大家觉得我工作效率、学习效率很高，但是我看一些真正的“神仙”的工作效率，我自己也自叹不如。

比如我偶像马斯克，人家今天造火箭，明天造卫星，然后还在地球上卖汽车，卖得还贼好，是吧。那这种人你和他比效率怎么比

前面谦虚的铺垫了下，其实他比较推崇马斯克的时间管理法，后面我也整理了下更为方法论的内容。然后，他提到了自己的一些情况，也确实是这么实践的——

所以我觉得这个也看大家自己的情况吧。在你自己的领域，做你自己擅长的事情，就会做的非常好。但是你让我换一个领域，我做别的事情，我效率也并不一定有这么高。

然后我自己个人同时做多个事情或多个项目，方法的话，就跟RTOX，抢占式调度有点像。就是排优先级，先把优先级最高的事情做好，不管后面的事情。做好之后，你再做第二高优先级的。然后就依次这样去完成。

因为你在做最高优先级事情的时候，你会想到后面还有这么多事情，这么多“锅”没有处理好，你就会有“Deadline”的紧张感，能促进你的效率。

下面我把稚晖君提到内容的背景梳理出来，其实所有时间管理的核心是，你需要引入一个重要的元素：时间。

任务需要跟时间关联起来。你必须想清楚如何完成一项任务，需要花费多长时间。

方法一、Time-Blocking：排优先级，先把优先级最高的事情做好

Time-Blocking（时间保护）是一种为日程安排里面的任务设定时间的方法。把每一天分成几个时间块/时间段，然后给每块时间分配任务。可帮助你摆脱困境、停止拖延并继续推进项目。它为需要注意的任务腾出时间和空间。这是一种将项目时间分解为更小部分的方法，因此更容易开始并取得稳步进展。

你可以设置带有开始时间和结束时间的时间块来处理特定活动的优先级。你可以专注于一个困难的、高收益的项目，比如战略营销计划，或者批处理类似的低级任务，比如回复电子邮件和回电话。如果出现真正的紧急情况和意外延误，你可以移动任务在时间段的优先级。如果您需要更多时间来完成任务，您可以安排新的时间块。

安排时间块不仅仅是制定待办事项清单。它告诉你你将在什么时候完成一项任务，在什么情况下，在什么情况下，以及多长时间。它鼓励您采取深思熟虑的行动步骤并阻止干扰和干扰。

埃隆· 马斯克（Elon Musk），比尔·盖茨（Bill Gates）或卡尔·纽波特（Cal Newport），是的——他们全都是时间保护的使用者。而且他们之所以这么做并不是因为他们喜欢自己做计划，而是为了榨干自己每一天的时间。

【教程】13.Roam时间管理：时间保护（Time-Blocking）：https://www.zhihu.com/zvideo/1337042647425228800

方法二、Time-Boxing：“Deadline”的紧张感，能促进你的效率

时间保护是为项目腾出时间。它磨练你的注意力，以满足最高的质量标准。时间框（Time-Boxing）限制了你花在一个项目上的时间。它促使您完成符合可接受标准的项目。

时间框 帮助你保持在一定时间范围内工作，避免完美主义，并按时完成和交付项目。它对往往需要很长时间才能完成的项目施加了时间限制。它利用了帕金森定律，该定律指出工作会扩展以填补为完成分配的时间。有一个停止工作的截止时间会让你更加注意你带来的价值，而不是你投入的时间。

时间框可以短至 15 分钟到几个月，具体取决于活动或项目。一个项目可能需要一两个步骤，而另一个项目则需要数百个步骤。时间表包含项目里程碑、截止日期和可交付成果。

马斯克推崇的“Time Boxing”工作法，关注的核心不是什么时刻做这件事，而是做这件事花费的时长。

这其实是一种深度工作的理念。大多数人制定工作都是多任务平行切换的。在这个切换过程中，上一个事件可能都没有完全收尾，就要调整进入另一件事的状态，这样切换是有专注力的损耗的。

同时，马斯克深谙 Deadline 才是第一生产力的道理，给每项任务安排足够且最少的时间，这样就让自己时刻处于 Deadline 临近的影响下，这样效率也最高。

方法三、在你自己的领域，做你自己擅长的事情

其实稚晖君说的最重要的，是在你自己的领域，做你擅长的事情。我们很多人的问题，在于不知道自己该干什么。

如果稚晖君的天才称之为天才，我觉得他清楚自己想做什么，并付出了时间，获取了成果。

脱离校园进入社会，从20岁到30岁，甚至许多人一辈子也没有解决。只能沉浸在奶头乐的世界里，用最单调的奖励机制刺激自己。

不知道自己干什么，一直处于一种被动模式，由父母、学校、公司、领导、社会来定义自己，是很多痛苦情绪的根源。

定义自己的“Block”，设定你的领域，这就是最简单有用的“时间管理”。

2 作者：拟时馈行

非常强。

而且这个人看着又低调。

但是实力又究极猛。

他之前在他的一个采访视频里面说过。

他对于他的时间管理的话，主要就是两个关键词。

主线和副线。

也可以说主线和支线。

他的很多产品机器人模型等东西的制作。

你会发现它是一个长线，可能是一两个月这么长的时间把这个东西完全做完的。

这个能力何其的厉害啊。

很多人只能连续性做成一件事。

比如他可能只能三四天一个星期只做这一件事情，才能把这个东西做成。

中间如果有其他东西打断的话，他可能整体就乱了。

但是稚晖君不一样。

人家可以支线有好多个并行的做，每天只需要投入固定时间，就可以在既定时间内或者他预期左右的时间内将它的目标实现。

这种管理能力是非常强的。

它包含了实时设计和固定时间段的设计方法。

我们普通人要修炼，要点时间的，真的。

而且这东西还不是一时半会就可以练出来的。

是在究极多的任务以及任务场景中反复迭代这个时间管理方法所获得的。

这是人家的厉害之处。

深藏不露且成果显著。

2022.10.20更新。

没想到这个回答的热度还挺高。

感谢大家点赞。

说几个关于时间管理的一些小方法吧，以便大家讨论。

第1个我在评论区里面说了，关于时间管理，我一般就只用两个东西，一个就是Excel表格，另一个就是电子版日历。

呃，当然还有一个是word文档。

我一般工作过程中会开这三个东西。

文档的话我会专门用来记录我的实时的一些任务，我会对它做时间段的一个分析及我会去专门用这个文档去判断，我脑中时时冒出的一些任务，应该在什么时间段去完成是最合适的。

这个判断做完之后，我会把它同步到电子日历表格中。

而我的Excel表格会主要做什么呢？

会主要做实时的项目类任务的，实时设置和设计。

这里面细节很多。

比如我对项目的定义。

以及我为什么一直强调实时这个东西。

在我的整个时间管理体系里面，比较关键的一个核心东西是截止时间。

且是实时的。

背后的原理，我不知道有多少人可能愿意听。

我点一下吧。

核心就是实时有强烈的随基因顺从欲望。——顺人性，行为推动效率很高。

另一个就是deadline。——它本质核心是注意力收束。

稚晖君的整个时间管理体系里面最核心的方法就是：他的整个项目是延续性的。

即他必然开了一个文档去做他整个项目的进度间歇性衔接。

因为我之前专门思考过做成一件事最核心的方法本质是什么？

就是延续性的把这个任务的每个方法缓解细节想清楚，并且真的去执行。

而现实生活中必然导致我们是不能延续的。

那我们靠什么连接？

就是延续性文档。

2023/8/8更新：

你们可以看看我的时间管理的故事、经历，相信会对您们有一定帮助。

见下文：

我说一下我对于时间管理这个能力的认知。

以前我根本没有是时间管理的意识

我都不知道时间管理的概念

我更不知道时间管理的意义是什么

至少在高三之前是这么认为的

后面我发现

我很多东西，根本没有做出我预期的成果

我一两年的时间，我居然，一事无成

我预期中我应该很早就应该把我的很多目标给实现

但过程中，要么

这个目标停止了，我没有继续去做了

比如吉他，比如计算机比如英语

要么这个目标变成其他目标了

本来应该实现的是这个，却过程中逐渐去做其他事情去了

为此，我痛苦了非常多的时间

我后面发现

这本质核心是我时间管理能力太差了

我有段时间觉得，人这一辈子就只能每天就是只做一件事情

不要再切换了

有的时候我又觉得，我很多任务我都要做，我不要放弃任何目标

当我知道我没有做出任何成果之后，我的时间管理体系有了一个质的突破

我找到了背后的一套能够做出成果的任务管理、时间管理方法

价值非常大

但是后面

当我能够对应做出成果之后

我发现我又出现了一个新问题

我发现，我生活中好像是真的有非常多的目标啊

有非常多的任务啊

我到底其他事情要不要做

有人说不要做

要专注

他们说，专注是高手的护城河

否则一事无成

我信了

我信了一阵子

结果我痛苦了

我有段时间

很多事情一塌糊涂

生活一团糟

为什么？

因为

有些我必须要做的事情

我因为，我只能做一件事这个观念束缚了

我就拖着

那些其他事情都不做

结果你知道如何了么？

我不仅其他事情没做好（因为根本没做嘛）

甚至，我主线任务我都没有任何成果

这个时候我才发现

任务管理体系的另一个核心是

关于

多目标管理

为什么要做多个目标？

因为成功必须要多个目标同时做

因为生活要求你不得不很多任务很多目标，就是要一起做。这个时候你就会知道多目标管理的一套方法有多么的重要、

仅仅只会做一个todo表，不可能做好什么时间管理，仅仅设置一个时限，全是表象

做计划

规划

是错的么？

不是

是因为

计划是表象

任务管理体系后的支撑你做好这个计划的

基底任务管理体系成套方法是

最核心的关键

这是任何人

成功的必要关键。

每一位顶尖的人

我说的是

最顶尖的人

他们的任务管理体系能力必然要极强

原创作者: whaosoft 转载于: https://blog.51cto.com/whaosoft/11661690