在强化学习中,"奖励"(Reward)和"回报"(Return)是两个核心概念。
-
奖励(Reward):
- 奖励是在某个时间步上由环境给予智能体(Agent)的反馈信号,用以表明智能体在当前状态下采取某个动作的好坏。
- 奖励可以是正的(表示好的结果或期望的行为),也可以是负的(表示坏的结果或不期望的行为),或者是零(表示中性或无关紧要的结果)。
-
回报(Return):
- 回报是从当前时间步开始,智能体在未来一系列时间步内所能获得的奖励的总和,通常这个总和会被一个折扣因子(Discount Factor)所折扣,以体现未来奖励的不确定性或时间价值。
- 回报是一个累积的概念,它考虑了从当前时刻开始到未来某个时刻(可能是一个完整的回合结束)的所有奖励。
- 强化学习的目标通常是最大化期望回报,即智能体学习一个策略,使得从任意状态开始,按照该策略行动所能获得的长期累积奖励最大。
在数学表示上,回报(Return)通常被定义为:
其中, 是在时间步 t 的回报,
是在未来时间步上获得的奖励,
是折扣因子
。
总结来说,"奖励"是环境对智能体单个动作的反馈。而"回报"是从当前状态开始考虑未来一系列动作所能获得的累积奖励。强化学习的目标是找到一个策略来最大化期望的回报。