《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法
时间差分(Temporal-Difference,简称TD)方法是一种无模型的强化学习方法,也是强化学习理论中最核心的内容。
1、时间差分方法与动态规划方法和蒙特卡罗方法的差异
与动态规划方法和蒙特卡罗方法相比,时间差分方法的主要不同在于值函数的估计。
(1)动态规划方法
动态规划方法计算值函数的时候,用到了当前状态S的所有后继状态S’处的值函数,值函数的计算用到了bootstrapping(自举)方法,是由模型得到的。
(2)蒙特卡罗方法