蒙特卡洛(MC)和时序差分(TD)的优缺点
MC更吃资源,而TD低方差,收敛效率较高
随机游走的例子
- 每一个节点都向右走的策略
- MC和TD对比例子,MC向右越来越稳点,TD带波动
MC Backup(蒙特卡洛反向传播)
Gt ——回报
时序差分反向传播
动态规划反向传播
反向求得Rt+1
n步时序差分
与一步时序差分的区别在于,比如下棋,有的人能看到一步棋,有的人能看到多步之后,理性情况下,够看到更多步的人赢面更大;非理性情况下,n步的训练数据越长方差越大,所以不稳定性增长了。
总览:RL值函数估计多种方法
动态规划DP:所有状态都知道,逐步更新
MC:看无穷远
TD:看一步
暴力搜素:遍历然后找最好的