第六章 时序差分学习
如果非要说一个强化学习中最核心并且新奇的方法,那么时序差分学习毫无疑问就是那种方法。TD方法是蒙特卡洛方法和动态规划思想的结合。所以TD方法有两个特点:一是可以直接从经验中学习,不需要环境模型;二是TD方法根据其他的估计来更新估计,也就是自举。时序差分学习,蒙特卡洛方法和动态规划三者之间关系的比较是强化学习中贯穿始终的主题。
6.1 TD预测
(1)Constant-α MC方法:
特点:1·常量α适合动态性问题 2,必须等到这一幕执行完成(得到Gt)才能进行估计。
(2)最简单的TD方法:
特点:只需要等一步,需要Rt+1 和V(St+1)的数值,Rt+1+rV(St+1)作为target对原有值函数进行更新。
下面是TD(0)程序框架:
从已学知识我们知道:
蒙特卡洛方法之所以是估计值是因为它利用采样的返回作为真实期望返回值。动态规划之所以说是自举方法是因为它利用V(St+1)的现有估计值,而不是真正的V(St+1)。而时序差分方法既有DP方法中的自举,又有蒙特卡洛方法中的采样。
TD error:
TD error 是指估计值和现有值之间的偏差。如果在一个片段中,值函数始终没有发生变化,那么蒙特卡洛误差可以用TD error来表示:
6.2 TD预测方法的优点
相对于DP方法来说,TD方法的优点是它不需要环境模型,不需要回报和下一个状态的可能性分配。
相对于蒙特卡罗方法,TD方法的优点是它能在线,以增量的方式学习。而蒙特卡洛方法只能