奖励(Reward)和回报(Return)的区别

本文介绍了强化学习中奖励与回报这两个关键概念,前者是环境对智能体单次行为的反馈,后者是未来所有奖励的累计。目标是智能体学习策略以最大化期望回报。
摘要由CSDN通过智能技术生成

在强化学习中,"奖励"(Reward)和"回报"(Return)是两个核心概念。

  1. 奖励(Reward):

    • 奖励是在某个时间步上由环境给予智能体(Agent)的反馈信号,用以表明智能体在当前状态下采取某个动作的好坏
    • 奖励可以是正的(表示好的结果或期望的行为),也可以是负的(表示坏的结果或不期望的行为),或者是零(表示中性或无关紧要的结果)。
  2. 回报(Return):

    • 回报是从当前时间步开始,智能体在未来一系列时间步内所能获得的奖励的总和通常这个总和会被一个折扣因子(Discount Factor)所折扣,以体现未来奖励的不确定性或时间价值
    • 回报是一个累积的概念,它考虑了从当前时刻开始到未来某个时刻(可能是一个完整的回合结束)的所有奖励。
    • 强化学习的目标通常是最大化期望回报,即智能体学习一个策略,使得从任意状态开始,按照该策略行动所能获得的长期累积奖励最大。

在数学表示上,回报(Return)通常被定义为:
G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}
其中, G_t 是在时间步  t 的回报,( R_{t+1}, R_{t+2}, \ldots )是在未来时间步上获得的奖励,\gamma 是折扣因子( 0 \leq \gamma \leq 1 )

总结来说,"奖励"是环境对智能体单个动作的反馈。而"回报"是从当前状态开始考虑未来一系列动作所能获得的累积奖励。强化学习的目标是找到一个策略来最大化期望的回报

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值