【论文笔记】【强化微调】AgentThink:思维链推理 + 工具调用

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

1. 引述

这是一篇自动驾驶领域的论文。我对这篇论文主要感兴趣的点在于其对于工具调用(Tool Call)的设计。这一点同时也被设计在了其强化微调时的奖励函数上。

2. 论文摘要

视觉-语言模型(VLM)在自动驾驶领域展现出巨大潜力,但其易产生幻觉推理效率低下缺乏真实世界验证的缺点,限制了对环境的精准感知和稳健的逐步推理。

为了解决这些挑战,我们提出了 AgentThink——首个将链式思维(CoT)推理与动态、代理式工具调用相结合的自动驾驶统一框架。AgentThink 的核心创新包括:

  1. 结构化数据生成:构建自动驾驶工具库,自动生成显式融入工具使用的结构化、自验证推理数据,以覆盖多样化驾驶场景;

  2. 双阶段训练流程:结合监督微调(SFT)组相对策略优化(GRPO),赋予 VLM 自主调用工具的能力;

  3. 代理式工具使用评估:提出多工具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值