论文阅读_1_大模型记忆反思_《Reflexion: Language Agents with Verbal Reinforcement Learning》

NLP_xiaofan

已于 2024-03-26 11:04:04 修改

阅读量2.8k

点赞数 31

文章标签：论文阅读

于 2024-03-25 18:35:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javacc2015/article/details/136868871

版权

文章介绍了一种新的强化学习方法Reflexion，它通过自然语言反馈增强Agent的反思能力，实现在多个任务上的优秀表现，特别是在长序列决策和推理任务中超越了现有技术。Reflexion利用大模型的自我评估，提供了轻量级的解决方案，无需大量参数更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.解决的问题和提出的方法

（1）解决问题：强化Agent（非参数更新）反思能力

（2）解决方法：提出Reflexion框架，通过自然语言反馈而非更新参数来强化Agent。把任务反馈信号作为短时记忆，引导后续的决策。

（3）效果：For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previ- ous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.

2.引言

依赖大模型的Agent 决策能力受限于in-context的学习样本，传统强化学习方法大量时间去更新和训练参数。这篇文章我们提出一种方法：Reflexion，这种方法用语言强化来帮助Agent从过去的失败中学习成长。Reflexion把从环境中的得到的二元或者标量的反馈转换成文本摘要。并将其作为附加的上下文添加到会话中。帮助完成下一步决策，模仿人类反思的过程。

生成有用的反思比较难，因为你不仅需要知道模型在哪里犯错，并且有能力给模型提供一些改善效果的可执行建议。本文提出三种方法来生成反馈性的反思：

（1）简单的二值反馈反馈；

（2）对常见的失败预定义一些策略。

最低0.47元/天解锁文章

博客等级

码龄10年

7
原创

139
点赞

179
收藏

93
粉丝

关注

私信

热门文章

最新评论

GraphRAG 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_4_prompt_《Active Prompting with Chain-of-Thought for Large Language Models》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_3_大模型记忆反思_《From LLM to Conversational Agent: A Memory Enhanced Architecturewith Fine-Tuning o》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_2_大模型记忆反思_《Self-Refine: Iterative Refinement with Self-Feedback》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_1_大模型记忆反思_《Reflexion: Language Agents with Verbal Reinforcement Learning》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。