《Reinforcement Learning》 读书笔记 6:时序差分学习(TD-Learning)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录

先来看一个例子
每天上班的路程,都是可以看作是一系列子过程的组合,如:走路去地铁站=>地铁1=>地铁2=>公交,总时长是这些子过程之和。每天我们依赖之前的经验,估计当天的时长,并更新我们的经验。
td_example_1
那么如何做出更好的估计呢?如何更快地积累有效的经验?
尤其是在一个没有适合model(回顾MDP中的 p(s,r|s,a) p ( s ′ , r | s , a ) )的环境下

两种思路

回顾第二章中的迭代式更新reward方法:
New=Old+StepSize(TargetOld) N e w = O l d + S t e p S i z e ⋅ ( T a r g e t − O l d )
这里并没有对model做任何假设,并且可以以一种在线、增量的方式进行更新
从而我们可以有两种方式:

  • const-α Monte Carlo
    V(St)V(St)+α(GtV(St)) V ( S t ) ← V ( S t ) + α ( G t − V ( S t ) )

    • stepsize设为一个固定的值 α α ,这样新的经验会占有更大的权重,能适应环境的变化
    • target定义为 Gt G t ,也就是需要每一轮episode结束后才能进行更新
  • TD(0)(one-step TD)
    V(St)V(St)+α[Rt+1+γV(St+1)V(St)] V ( S t ) ← V ( S t ) + α [ R t + 1 + γ V ( S t 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值