Agent 系列之 ReWOO框架解析

论文介绍了一种新型的增强型语言模型ReWOO,通过分离推理与观察,减少Token使用并提高复杂任务下的鲁棒性。与ReAct相比,ReWOO通过全局规划降低与LLM的交互,优化了模型效率和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ReWOO (Reasoning WithOut Observation),可以解决ReAct的冗杂问题,减少Token使用,并且在相较复杂情况下,表现了比ReAct等框架下更好的鲁棒性。

论文摘要

【论文标题】:《ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models》;

【发布时间】:2023.05.23;

【论文链接】:https://arxiv.org/abs/2305.18323;

【内容摘要】

论文主要介绍了一种新的增强型语言模型(ALM)方法——ReWOO,旨在解决现有ALM系统计算复杂度高、重复执行等问题。该方法将推理过程与外部观察分离,从而显著减少token消耗,并在六个公共NLP基准测试和一个定制数据集上实现了性能提升。此外,这种方法还可以通过解耦参数模块和非参数工具调用来实现指令微调,从而将大型语言模型卸载到更小的语言模型中,大大减少了模型参数(本文不展开,感兴趣的朋友可自行查阅)。

图片

主要内容

论文方法

ReWOO(Reasoning with Work and Solve)框架包含三个部分:Planner、Worker和Solver。其中,Planner使用可预见推理能力为复杂任务创建解决方案蓝图;Worker通过工具调用来与环境交互,并将实际证据或观察结果填充到指令中;Solver处理所有计划和证据以制定原始任务或问题的解决方案。

图片

图 2:在 (a) ReAct中,首先使用上下文提示和示例对用户请求的任务进行包装,然后将其馈入 LLM 以启动推理过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值