时序差分学习（TD）

最新推荐文章于 2023-05-17 14:59:50 发布

木白CPP

最新推荐文章于 2023-05-17 14:59:50 发布

阅读量491

点赞数 1

分类专栏：强化学习文章标签：学习

本文链接：https://blog.csdn.net/u011895157/article/details/129521318

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在强化学习所有的思想中，时序差分(TD)学习是最核心，最新颖的思想。蒙特卡洛(MC)往往需要等到完整的一轮结束了之后才能确定真实回报G(t)，但实际中很多场景完整一轮的时间非常长，或者根本没有结束状态，这时候用蒙特卡洛的方法就不适合了。

时序差分学习(TD)

时序差分学习是一种从经验片段中进行学习的一种方法，与MC最大的差距就是，TD方法不需要等到一轮结束（即等到终止状态），只需要等到下一个时刻即可。在t+1时刻，根据得到的奖励 $R_{t+1}$ 和估计值 $V(S_{t+1})$ 对当前的估计值 $V(S_t)$ 进行跟新，定义为：
$V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)]$
括号里面的是误差，它是衡量 $S_{t}$ 的估计值和更好的估计值 $R_{t+1}+\gamma V(S_{t+1})$ 之间的差异，定义为：
$\delta_t=R_{t+1}+\gamma V(S_{t+1})-V(S_t)$
注意，每个时刻的误差是当前时刻的误差，取决于下一个时刻的状态和奖励。也就是说，t时刻的误差需要到t+1时刻才能得到。