CoT-Drive:开启自动驾驶思维链时代!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天arix上挂出来两篇重量级的工作!华科和地平线最新提出的AlphaDrive,首次基于GRPO的强化学习策略实现端到端自动驾驶,大幅超越SFT基线35.31%!澳门大学最新提出的CoT-Drive,首次将LLMs的上下文推理能力引入自动驾驶运动预测!自动驾驶思维链时代正式开启!本文内容均出自『自动驾驶之心知识星球』,欢迎加入交流。这里已经汇聚了近4000名自动驾驶从业人员,每日分享前沿技术、行业动态、岗位招聘、大佬直播等一手资料!欢迎加入~

新人大额优惠立减80!欢迎加入~

图片

AlphaDrive

  • 论文标题:AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

  • 论文链接:https://arxiv.org/pdf/2503.07608

  • 项目链接:https://github.com/hustvl/AlphaDrive

f598b50d4ee53118dea5e4982c003fcb.png

核心创新点:

  1. GRPO强化学习框架的首次引入:提出基于Group Relative Policy Optimization (GRPO) 的强化学习策略,首次将其应用于自动驾驶规划任务。相较于传统方法(如PPO、DPO),GRPO通过组内多输出的相对优化策略,更好地适配规划任务中多可行解的特点,显著提升训练稳定性和规划性能。

  2. 面向规划的四类定制化奖励机制:

  • 规划准确性奖励:采用F1分数分别评估横向(方向)与纵向(速度)决策的匹配度,避免传统严格匹配带来的早期训练不稳定问题。

  • 动作权重奖励:根据驾驶行为的安全重要性(如刹车>转向>保持速度)动态加权奖励,强化关键动作的学习。

  • 规划多样性奖励:通过组内输出的差异度评估,鼓励生成多样化解决方案,防止模式坍塌。

  • 规划格式奖励:强制模型输出符合结构化格式(如 <think> 推理过程与 <answer> 最终决策),提升结果可解析性。

  1. 两阶段知识蒸馏训练策略

  • SFT阶段:利用大模型(如GPT-4o)生成的高质量规划推理数据进行监督微调,解决自动驾驶领域推理数据稀缺问题。

  • RL阶段:基于GRPO的强化学习进一步优化模型,结合SFT阶段的初始化,有效缓解早期训练中的幻觉与不稳定性,提升规划性能与效率。

  1. 多模态规划能力的涌现

  • 实验表明,经过GRPO-RL训练后,模型展现出多模态规划能力(如同时生成“加速直行”或“减速右转”等可行方案),而传统SFT模型仅输出单一决策。这种能力可通过下游动作模型动态选择最优解,显著提升驾驶安全性与效率。

  1. 高效数据利用与性能优势

  • 仅需20%训练数据(20k样本),AlphaDrive的规划准确率即超越SFT基线35.31%;在完整数据集(110k样本)下,规划准确率提升25.52%,关键动作(转向、加减速)的F1分数提升显著(如右转F1从87.75%提升至93.25%)。

CoT-Drive

  • 论文标题:CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting

  • 论文链接:https://arxiv.org/pdf/2503.07234

e856e86da3dc3ba7dc414dfe105cd01f.png

核心创新点:

  1. 思维链(CoT)提示框架

  • 首次将LLMs的上下文推理能力 引入自动驾驶运动预测,通过分步语义标注(如背景分析、交互推理、风险评估)提升复杂场景理解。

  • 设计四阶段CoT提示流程 ,引导LLMs生成符合交通法规和人类驾驶逻辑的语义描述。

  1. 轻量化知识蒸馏策略

  • 提出教师-学生蒸馏架构 ,将GPT-4 Turbo的场景理解能力迁移至边缘端轻量级语言模型(如Qwen-1.5),实现实时推理 (延迟<0.2秒)与低存储占用 (参数量减少90%)。

  1. 多模态融合机制

  • 结合语言指令编码器 (语义标注)与交互感知编码器 (时空轨迹),通过交叉注意力机制融合语义特征与动态交互特征。

  1. 新型数据集构建

  • 发布Highway-Text 和Urban-Text 数据集,包含超1000万词的交通场景语义标注,支持LLMs的细粒度场景理解训练。

  1. 不确定性建模

  • 解码器采用高斯混合模型(GMM)与 深度集成方法 ,同时建模认知不确定性 (Epistemic Uncertainty)与数据不确定性 (Aleatoric Uncertainty)。

T3Former

  • 论文标题:Temporal Triplane Transformers as Occupancy World Models

  • 论文链接:https://arxiv.org/pdf/2503.07338

65d0c7fdfcc21d83310beb3b14966253.png

核心创新点:

  1. 时空联合建模架构

  • 首创性地将 Triplane分解 (三维体素的正交二维平面表征)与 Transformer 结合,构建统一时空表征框架。Triplane通过分解3D场景为空间平面特征,降低计算复杂度;Transformer则通过 时间自注意力机制 捕捉动态场景的长期时序依赖,解决传统方法分离处理时空信息的局限性。

  1. 动态占用预测范式

  • 提出基于 occupancy grid 的动态世界模型,通过时序Triplane特征融合,实现对未来时刻 隐式三维占用状态 (occupancy state)的概率预测。该范式突破了静态场景建模的限制,支持动态障碍物轨迹推断与环境变化建模。

  1. 高效时空特征交互

  • 设计 轴对齐特征交互模块 (Axis-Aligned Feature Interaction),通过Triplane的空间局部性约束与Transformer的全局时序建模互补,平衡局部几何细节与全局动态一致性,在保持高分辨率表征的同时降低计算冗余。

  1. 跨模态时序蒸馏

  • 引入 时序知识蒸馏策略 ,将长序列时序依赖压缩为紧凑的隐空间表征,显著减少推理延迟(实测降低40%计算量),同时维持与 teacher model 相当的占用预测精度(IoU指标提升3.2%)。

『自动驾驶之心知识星球』,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫码加入~

新人大额优惠立减80!欢迎加入~

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值