时序差分学习(TD)

在强化学习所有的思想中,时序差分(TD)学习是最核心,最新颖的思想。蒙特卡洛(MC)往往需要等到完整的一轮结束了之后才能确定真实回报G(t),但实际中很多场景完整一轮的时间非常长,或者根本没有结束状态,这时候用蒙特卡洛的方法就不适合了。

时序差分学习(TD)

时序差分学习是一种从经验片段中进行学习的一种方法,与MC最大的差距就是,TD方法不需要等到一轮结束(即等到终止状态),只需要等到下一个时刻即可。在t+1时刻,根据得到的奖励 R t + 1 R_{t+1} Rt+1和估计值 V ( S t + 1 ) V(S_{t+1}) V(St+1)对当前的估计值 V ( S t ) V(S_t) V(St)进行跟新,定义为:
V ( S t ) ← V ( S t ) + α [ R t + 1 + γ V ( S t + 1 ) − V ( S t ) ] V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)] V(St)V(St)+α[Rt+1+γV(St+1)V(St)]
括号里面的是误差,它是衡量 S t S_{t} St的估计值和更好的估计值 R t + 1 + γ V ( S t + 1 ) R_{t+1}+\gamma V(S_{t+1}) Rt+1+γV(St+1)之间的差异,定义为:
δ t = R t + 1 + γ V ( S t + 1 ) − V ( S t ) \delta_t=R_{t+1}+\gamma V(S_{t+1})-V(S_t) δt=Rt+1+γV(St+1)V(St)
注意,每个时刻的误差是当前时刻的误差,取决于下一个时刻的状态和奖励。也就是说,t时刻的误差需要到t+1时刻才能得到。

MC方法更新的目标为 G ( t ) G(t) G(t),TD方法更新的目标为 R t + 1 + γ V ( S t + 1 ) R_{t+1}+\gamma V(S_{t+1}) Rt+1+γV(St+1),乍一看好像说不通,可以结合一个例子看看

例子

alt
alt
MC方法很好理解,我们已经经过了完整的一轮,G(t)已知,以G(t)为目标,过程会发生一些意外情况,但最后是不断逼近目标值。
TD方法属于一边经历一遍估计的学习方式,不需要经过完整一轮,不知道G(t)的值,每走一步之后,都需要根据经验对未来进行估计,最后一样可以收敛到最终值。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
时序分强化学习(Temporal Difference Reinforcement Learning, TDRL)是一类强化学习算法,结合了动态规划和蒙特卡洛方法的思想。它通过使用经验数据进行增量式的更新,同时利用了当前和未来的估计值来逼近最优值函数。 时序分强化学习方法的核心思想是通过估计值函数的分来更新值函数的估计值。在每个时间步,智能体观察到当前状态、选择动作、观察到下一个状态和收到奖励。然后,根据分误TD)来更新值函数的估计值。 TD定义为当前状态下的估计值与下一个状态的估计值之加上即时奖励。TD可以表示为: TD_error = R + γV(s') - V(s) 其中,R是即时奖励,V(s)是当前状态s的估计值,V(s')是下一个状态s'的估计值,γ是折扣因子,用于衡量未来奖励的重要性。 根据TD,可以使用不同的更新规则来更新值函数的估计值。常见的时序分强化学习算法包括以下几种: 1. SARSA(State-Action-Reward-State-Action):SARSA算法使用状态-动作对的估计值来更新Q值函数的估计值。在每个时间步,智能体根据当前策略选择动作,观察到下一个状态和奖励,并根据TD来更新Q值函数的估计值。 2. Q-learning:Q-learning算法也是一种基于TD的更新规则,但它使用了下一个状态的最大估计值来更新Q值函数的估计值。在每个时间步,智能体根据当前策略选择动作,观察到下一个状态和奖励,并通过TD和最大估计值来更新Q值函数的估计值。 3. TD(λ):TD(λ)算法是一种使用λ折扣因子的时序分强化学习算法。它通过考虑未来多个时间步的估计值来更新值函数的估计值。TD(λ)算法将过去若干时间步的TD进行加权求和,并根据加权和来更新值函数的估计值。 时序分强化学习方法具有较高的效率和适应性,可以在每个时间步骤中进行更新,不需要等到任务结束后才进行更新。它能够快速收敛到最优策略,并且可以处理具有部分可观测性和连续状态空间的问题。该方法在许多领域中都有广泛的应用,如机器人控制、游戏智能、自动驾驶等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

木白CPP

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值