【大模型】Reflextion解读

前言:一种大模型强化学习技术,将传统的梯度更新时的参数信号替换成上下文的语言总结,过程和人类反思相似。区别与RLHF,Reflextion是agent自我反思,RLHF是人类反馈。

1. 基础知识

1.1 强化学习

四要素:策略(policy),奖励(reward),价值(value)以及环境或者说是模型(model)

  • 策略:定义了智能体对于给定状态所做出的行为,换句话说,就是一个从状态到行为的映射。
  • 奖励:定义了强化学习问题的目标,能表征在某一步智能体的表现如何
  • 价值:与奖励的即时性不同,价值函数是对长期收益的衡量
  • 环境:用于预测接下来的状态和对应的奖励。
    在这里插入图片描述

1.2 大模型Agent

Agent是一种框架,Agent 通常利用 prompt 来与用户交互,接收输入,处理信息,然后提供响应。在复杂应用中,Agent 可能具备记忆、长期对话、任务分配、资源调用等多种能力,并且会根据用户的 prompt 和上下文自动调整行为。

2. 创新点

  • 利用自然语言作为反馈信号,将二进制或标量环境反馈转化为文本形式的自反反馈,从而为智能体提供了更加清晰和可解释的方向;
  • 使用长短期记忆(LSTM)网络存储自反反馈经验,以便于智能体在未来的学习过程中参考;

3. 模型框架

在这里插入图片描述

在这里插入图片描述
a. 三个模型

  • Actor模型:使用大型语言模型(LLM)来生成文本和动作,并在环境中接收观察结果。
  • Evaluator模型:负责评估Actor产生的轨迹的质量,并计算一个奖励分数以反映其性能。
  • Self-Reflection模型:对反馈内容进行反思,为后续流程提供有价值的反馈信息。

b. 两个记忆

  • 长期记忆:长期记忆则存储来自Self-Reflextion模型的经验反馈
  • 短期记忆:短期记忆用于存储最近的任务历史记录

参考文献

[1]Reflexion: Language Agents with Verbal Reinforcement Learning
[2]https://github.com/noahshinn/reflexion

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值