目录 时序差分强化学习中的V(St+1) 时序差分强化学习中的V(St+1) 图中画横线中的圈中内容是通过经验预估出来的,例如可以是上一次迭代过程的状态价值也可以是利用非递增式的蒙特卡罗法。(参考这篇文章这部分两个习题分别对应两个预估方法)