时序差分(TD)算法:

TD算法:

  1. 小猴子每走1步,看一下这个路口的V值,还有获得的奖励r;

  1. 回到原来的路口,把刚刚看到的V值和奖励r进行运算,估算出V值。

和蒙地卡罗(MC)不同:TD算法只需要走N步。就可以开始回溯更新。

和蒙地卡罗(MC)一样:小猴需要先走N步,每经过一个状态,把奖励记录下来。然后开始回溯。

那么,状态的V值怎么算呢?其实和蒙地卡罗一样,我们就假设N步之后,就到达了最终状态了。

  • 假设“最终状态”上我们之前没有走过,所以这个状态上的纸是空白的。这个时候我们就当这个状态为0

  • 假设“最终状态”上我们已经走过了,这个状态的V值,就是当前值。然后我们开始回溯。

在TD(0)中,使用下一状态的V,加上状态转移的R作为更新目标!

TD更厉害的是,在很多时候,我们并不需要一直到最后,我们可以先用后面的估算,然后调整当前状态。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

waski

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值