【llm对话系统】RL强化学习的技术演进与RLHF

一、 强化学习基础知识

强化学习 (Reinforcement Learning, RL) 是一种机器学习方法,它通过智能体 (Agent) 与环境 (Environment) 的交互来学习如何行动以最大化累积奖励 (Reward)。

1. 核心概念:

  • 智能体 (Agent): 做出决策并采取行动的学习者。
  • 环境 (Environment): 智能体所处的外部世界,对智能体的行动做出反应。
  • 状态 (State, S): 对环境当前情况的描述。
  • 动作 (Action, A): 智能体在特定状态下可以采取的行为。
  • 奖励 (Reward, R): 环境对智能体动作的反馈,可以是正面的 (奖励) 或负面的 (惩罚)。
  • 策略 (Policy, π): 从状态到动作的映射,定义了智能体在每个状态下选择动作的规则。
  • 价值函数 (Value Function): 评估一个状态或状态-动作对的好坏,通常表示为预期累积奖励。
  • Q 值函数 (Q-Function): 评估在特定状态下采取特定动作的价值。
  • 目标: 找到一个最优策略 (Optimal Policy)ÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kakaZhui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值