AgentFlow是由四个专业智能体(规划器、执行器、验证器、生成器)组成的新范式,通过Flow-GRPO流中强化学习算法实时优化系统。以Qwen-2.5-7B-Instruct为基座的AgentFlow在10个基准测试中表现优异,搜索、智能体、数学和科学任务分别提升14.9%、14.0%、14.5%和4.1%,超越GPT-4o等大模型50倍规模的模型。研究表明,合理的系统设计和训练方法比单纯堆砌参数更有效,"协同能力"可能取代"规模"成为衡量智能的新指标。
斯坦福等新框架,用在线强化学习让智能体系统“以小搏大”,领先GPT-4o——
AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力。
它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作,利用新方法Flow-GRPO,在系统内部直接对其规划器智能体进行实时优化。

以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现突出:
搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。
多项任务表现甚至超越比其大50倍的模型,超越GPT-4o、Llama3.1-405B。

AgentFlow发布后,受到业界不少广泛关注与看好。

网友纷纷表示方向很棒:
多智能体流*(multi-agent flow)给人的感觉就像“相位耦合推理”(phase-coupled reasoning)*。很期待看到“协同能力”取代“规模”,成为衡量智能的指标。

Flow-GRPO采用共享内存的多智能体架构设计精妙。其中验证智能体对幻觉化工具调用的阻断机制尤为关键——它能显著减少智能体工作流中典型的多步推理链误差传播。

所以,AgentFlow究竟长啥样?

工具集成的智能体系统+流中强化学习训练
自“AI下半场”开启以来,智能体(Agent)在垂直领域与通用场景中呈现出井喷式发展。然而,在复杂决策与持续优化能力方面,当前智能体仍存在一定局限。如何将智能体的推理能力与强化学习的自我进化机制深度融合,成为突破这一瓶颈的关键所在。
在今年早些时候,随着DeepSeek-R1的发布,推理模型的训练方式迎来了新的启发。不久之后,伊利诺伊大学香槟分校(UIUC)发布Search-R1,系统揭示了如何通过强化学习,训练能够自主推理并调用外部工具的推理模型(Tool-Integrated Reasoning Models)。
而在此之前,智能体系统(Agentic System)的发展也从系统层面推动了智能体协作与可扩展性的提升,为后续相关研究奠定了坚实基础。
例如,LangGraph、PydanticAI、OWL等框架在智能体通信、任务规划与工具调用等方面进行了多样化的探索,为智能体生态的快速演进提供了有力支撑。

而AgentFlow提出了一种新范式,其中由四个具备记忆能力的专门化智能体协同配合:
规划器负责分析任务并选择工具,执行器调用工具并整合结果,验证器基于累积记忆评估中间结果,生成器整合信息生成最终答案。

对于每个新任务,规划器在智能体交互的“流”中根据环境变化及其他智能体的反馈实时进行on-policy优化,各模块在推理流中协同演化并不断调整决策策略。这些优化随后被整合到系统的记忆中,形成一个闭环的自适应推理过程,使整个智能体系统在复杂环境下实现鲁棒的工具调用与持续进化。
其中,AgentFlow包含了以下几个关键组件:
模块化智能体结构。
AgentFlow采用了四个具备记忆能力的专门化智能体协同配合,共同完成复杂推理,从而实现“即时学习”:
(i)规划器(Action Planner):分析任务、制定策略并选择最合适的工具;
(ii)执行器(Tool Executor):调用工具集并整合工具执行结果;
(iii)验证器(Verifier):基于系统维护的累积记忆评估中间结果是否满足目标与约束;
(iv)生成器(Generator):整合所有信息与验证反馈,生成最终答案或行动建议。
AgentFlow流中强化学习。
AgentFlow的关键创新在于:规划器(Planner)并非固定不变,而是能够在智能体交互的”流”(flow)中实时进行on-policy优化,使决策过程随着环境变化及其他智能体的反馈不断自适应进化。集成过程分为三个步骤:(i)环境感知与记忆检索,(ii)动作规划与工具选择,(iii)策略优化与记忆更新。
Flow-GRPO:流中强化学习优化算法。
实现智能体流中强化学习训练的核心挑战在于多轮信用分配*(multi-turn credit assignment):即如何在长时跨度(long-horizon)且奖励稀疏(sparse reward)的条件下,稳定且高效地训练。为此团队提出动作级别的(Action Level)*的多轮推理优化目标。

如图2所示,通过将轨迹最终结果的成功或失败信号(outcome reward)广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提升了训练效率,为智能体在复杂多轮推理中的稳定学习提供了基础。

实验结果
为了充分评估AgentFlow的泛化能力与高效性,研究团队在10个跨各个领域的基准测试上进行了系统评测,涵盖知识检索、智能体任务、数学推理和科学推理四大类。

以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均超越现有领先方法:
- 知识检索(Search):提升14.9%
- 智能体推理(Agentic Reasoning):提升14.0%
- 数学推理(Math):提升14.5%
- 科学推理(Science):提升4.1%
值得注意的是,AgentFlow的表现甚至超过了大规模的专有模型,如GPT-4o(~200B)。


表1、2展示了AgentFlow在不同类型任务上的评估结果,表明了在有效性(相对提高高达14.9%)和效率(平均推理步数优化)上均优于基准方法。
研究团队在10个基准测试上进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。一些有趣的发现:
1、模型规模不是唯一答案
使用7B参数的AgentFlow在多个任务上超过了约200B参数的GPT-4o,Llama3.1-405B,在搜索任务上领先8.2%,在智能体任务上领先15.8%。这再一次展现了,合理的系统设计和训练方法可能比单纯堆砌参数训练All in one的大模型更有效。
2、“在流中学习”至关重要
对比实验显示,若采用离线监督学习(SFT)方式训练规划器,性能反而显著下降,平均降低19%。
这表明,智能体在真实交互环境“流”中进行在线学习是实现高效推理的必要条件。
此外,尽管AgentFlow的推理流本身能够利用其强大的任务分解能力带来显著性能提升,但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练,智能体系统展现出快速修正错误的工具调用、更精细的子任务规划,以及全局任务解决性能的提升。
这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。


3、自主发现新的解决路径
有意思的是,经过Flow-GRPO的强化训练规划器,系统学会了根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search)和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。

4、动态推理深度与性能提升
对于相同的数据集下的不同难度任务:譬如说多跳搜索(Multihop Search),智能体任务中的密集长链推理任务,AgentFlow在经过 FlowGRPO训练后能够随着最大限制推理步数的上升稳步提升性能,同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率,而不会一味地所有任务都随着最大轮数限制而延长推理步数。


总之,AgentFlow为智能体训练提供了一种全新的思路:
与其追求一个功能完备的单一大语言模型或“一次性完美”的智能体系统,不如让智能体在系统中自我适应与持续学习。
通过将群体智能与“边做边学”的范式相结合,AgentFlow使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。
尽管从研究探索到实际应用仍有较长的距离,但这让团队看见Agentic AI依然蕴藏着巨大的潜力与想象空间。
论文地址:https://arxiv.org/abs/2510.05592
项目主页:https://agentflow.stanford.edu/
Github仓库:https://github.com/lupantech/AgentFlow
在线Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube视频:https://www.youtube.com/watch?v=kIQbCQIH1SI
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!

1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。

4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

 
                   
                   
                   
                   
       
           
                 
                 
                 
                 
                 
                
               
                 
                 
                 
                 
                
               
                 
                 扫一扫
扫一扫
                     
              
             
                   2272
					2272
					
 被折叠的  条评论
		 为什么被折叠?
被折叠的  条评论
		 为什么被折叠?
		 
		  到【灌水乐园】发言
到【灌水乐园】发言                                
		 
		 
    
   
    
   
             
            


 
            