论文阅读_1_大模型记忆反思_《Reflexion: Language Agents with Verbal Reinforcement Learning》

文章介绍了一种新的强化学习方法Reflexion,它通过自然语言反馈增强Agent的反思能力,实现在多个任务上的优秀表现,特别是在长序列决策和推理任务中超越了现有技术。Reflexion利用大模型的自我评估,提供了轻量级的解决方案,无需大量参数更新。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.解决的问题和提出的方法

(1)解决问题:强化Agent(非参数更新) 反思能力

(2)解决方法:提出Reflexion框架,通过自然语言反馈而非更新参数来强化Agent。把任务反馈信号作为短时记忆,引导后续的决策。

(3)效果:For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previ- ous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.

2.引言

依赖大模型的Agent 决策能力受限于in-context的学习样本,传统强化学习方法大量时间去更新和训练参数。这篇文章我们提出一种方法:Reflexion,这种方法用语言强化来帮助Agent从过去的失败中学习成长。Reflexion把从环境中的得到的二元或者标量的反馈转换成文本摘要。并将其作为附加的上下文添加到会话中。帮助完成下一步决策,模仿人类反思的过程。

生成有用的反思比较难,因为你不仅需要知道模型在哪里犯错,并且有能力给模型提供一些改善效果的可执行建议。本文提出三种方法来生成反馈性的反思:

(1)简单的二值反馈反馈;

(2)对常见的失败预定义一些策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值