文章目录
前言
RL学习——时序差分(TD)
Temporal-Difference Learning
时序差分是介于蒙特卡洛和动态规划之间的方法,它是免模型的,不需要马尔可夫决策过程的转移矩阵和奖励函数。此外,时序差分方法可以从不完整的回合中学习,并且结合了自举的思想。
1.特点
TD直接从经验中学习,基于model free,通过自举(bootstrapping)从不完整的episodes中学习,边采样边更新值函数。
2.MC与TD
target:根据给定的策略
π
\pi
π得到经验估计价值函数
v
π
v_{\pi}
vπ。
增量式every-visit MC方法:朝着实际回报的方向更新价值(对整个episodes求平均回报,也就是实际的回报)
最简单的TD(0):朝着估计回报
R
t
+
1
+
γ
V
(
S
t
+
1
)
R_{t+1}+\gamma V(S_{t+1})
Rt+1+γV(St+1)的方向更新
V
(
S
t
)
V(S_t)
V(St),(将episode中此刻状态的即时奖励与下一状态的值函数的和估计为回报进行更新),从TD的更新公式从可以看出,TD是结合了自举的思想(状态之间互相求得,不同状态是相互依赖的)
3. MC与TD优缺点:
(1)整体看
TD:每一步之后在线学习,无需等到episode结束再获得回报,能够在连续任务中学习,不要求episode必须终止
MC:只能在整个episode终止后获得回报,只适用于有终止的环境
(2)偏差与方差平衡
能够发现:MC具有高方差,零偏差,而TD具有低方差、存在偏差,因此TD算法对初始点比较敏感,具有较快的收敛速度,相对更高效
(3)AB状态的例子
从例子可以发现,TD利用了马尔可夫的性质(未来状态只取决于现在的状态,与过去的状态无关),而MC没有利用马尔可夫的性质,因此TD相比于MC在马尔可夫环境中更有效。
MC、TD、DP比较
4. TD
因为TD存在较大的偏差,较低的方差,而MC具有0偏差,高方差 ,将MC与TD结合起来便可以具有相对较低的偏差与方差,达到偏差与方差的平衡,因此引入TD
(
λ
)
(\lambda)
(λ)。
n步TD定义:
考虑将n步内的所有所有回报采用加权的方式得到最终的回报,这样既有较低的偏差也具有较低的方差,能够达到平衡
具体做法: