model free Temporal-Difference Learning-prediction


前言

RL学习——时序差分(TD)


Temporal-Difference Learning

时序差分是介于蒙特卡洛和动态规划之间的方法,它是免模型的,不需要马尔可夫决策过程的转移矩阵和奖励函数。此外,时序差分方法可以从不完整的回合中学习,并且结合了自举的思想。

1.特点

TD直接从经验中学习,基于model free,通过自举(bootstrapping)从不完整的episodes中学习,边采样边更新值函数。

2.MC与TD

target:根据给定的策略 π \pi π得到经验估计价值函数 v π v_{\pi} vπ
增量式every-visit MC方法:朝着实际回报的方向更新价值(对整个episodes求平均回报,也就是实际的回报)
在这里插入图片描述

最简单的TD(0):朝着估计回报 R t + 1 + γ V ( S t + 1 ) R_{t+1}+\gamma V(S_{t+1}) Rt+1+γV(St+1)的方向更新 V ( S t ) V(S_t) V(St),(将episode中此刻状态的即时奖励与下一状态的值函数的和估计为回报进行更新),从TD的更新公式从可以看出,TD是结合了自举的思想(状态之间互相求得,不同状态是相互依赖的)
在这里插入图片描述

3. MC与TD优缺点:

(1)整体看

TD:每一步之后在线学习,无需等到episode结束再获得回报,能够在连续任务中学习,不要求episode必须终止
MC:只能在整个episode终止后获得回报,只适用于有终止的环境

(2)偏差与方差平衡

在这里插入图片描述
能够发现:MC具有高方差,零偏差,而TD具有低方差、存在偏差,因此TD算法对初始点比较敏感,具有较快的收敛速度,相对更高效

(3)AB状态的例子

在这里插入图片描述
在这里插入图片描述
从例子可以发现,TD利用了马尔可夫的性质(未来状态只取决于现在的状态,与过去的状态无关),而MC没有利用马尔可夫的性质,因此TD相比于MC在马尔可夫环境中更有效。

MC、TD、DP比较

在这里插入图片描述

4. TD

因为TD存在较大的偏差,较低的方差,而MC具有0偏差,高方差 ,将MC与TD结合起来便可以具有相对较低的偏差与方差,达到偏差与方差的平衡,因此引入TD ( λ ) (\lambda) (λ)
n步TD定义:
在这里插入图片描述
在这里插入图片描述
考虑将n步内的所有所有回报采用加权的方式得到最终的回报,这样既有较低的偏差也具有较低的方差,能够达到平衡
具体做法:
在这里插入图片描述


总结

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值