1.解决的问题和提出的方法
(1)解决问题:强化Agent(非参数更新) 反思能力
(2)解决方法:提出Reflexion框架,通过自然语言反馈而非更新参数来强化Agent。把任务反馈信号作为短时记忆,引导后续的决策。
(3)效果:For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previ- ous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.
2.引言
依赖大模型的Agent 决策能力受限于in-context的学习样本,传统强化学习方法大量时间去更新和训练参数。这篇文章我们提出一种方法:Reflexion,这种方法用语言强化来帮助Agent从过去的失败中学习成长。Reflexion把从环境中的得到的二元或者标量的反馈转换成文本摘要。并将其作为附加的上下文添加到会话中。帮助完成下一步决策,模仿人类反思的过程。
生成有用的反思比较难,因为你不仅需要知道模型在哪里犯错,并且有能力给模型提供一些改善效果的可执行建议。本文提出三种方法来生成反馈性的反思:
(1)简单的二值反馈反馈;
(2)对常见的失败预定义一些策略。