1. 引述
这是一篇自动驾驶领域的论文。我对这篇论文主要感兴趣的点在于其对于工具调用(Tool Call)的设计。这一点同时也被设计在了其强化微调时的奖励函数上。
2. 论文摘要
视觉-语言模型(VLM)在自动驾驶领域展现出巨大潜力,但其易产生幻觉、推理效率低下及缺乏真实世界验证的缺点,限制了对环境的精准感知和稳健的逐步推理。
为了解决这些挑战,我们提出了 AgentThink——首个将链式思维(CoT)推理与动态、代理式工具调用相结合的自动驾驶统一框架。AgentThink 的核心创新包括:
-
结构化数据生成:构建自动驾驶工具库,自动生成显式融入工具使用的结构化、自验证推理数据,以覆盖多样化驾驶场景;
-
双阶段训练流程:结合监督微调(SFT)与组相对策略优化(GRPO),赋予 VLM 自主调用工具的能力;
-
代理式工具使用评估:提出多工具

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



