强化学习笔记（一）

feiba54

已于 2022-01-23 10:43:12 修改

阅读量393

点赞数

分类专栏：强化学习文章标签：图论

于 2021-12-12 11:36:03 首次发布

本文链接：https://blog.csdn.net/qq_39540454/article/details/121884888

版权

本文介绍了强化学习中的蒙特卡洛方法，包括MC策略评估，如First-visit MC预测和动作值估计，以及MC策略迭代。探讨了Exploring Starts在解决探索问题上的作用，并简要提到了MC控制方法。此外，文章还概述了时间差分算法，区分了DP、MC和TD在预测阶段的差异，重点讨论了TD(0)的最优性及Sarsa和Q-learning的控制策略。

摘要由CSDN通过智能技术生成

第五章蒙特卡洛方法（MC）

（一）MC策略评估

1.MC prediction: 估计状态值

First-visit MC prediction算法，用来估计每个状态值。也有every-visit，不过没有first-visit用的多
-和DP相比：MC方法对每个状态值的估计是独立的，没有用到自己以前的状态，称为没有用到bootstraping

2.MC estimation of action values: 估计动作值

在模型不可知的情况下，估计状态动作值q(s,a)比估计状态值v(s)更有用。这是因为模型已知时，状态值v(s)本身就足以决定策略：只需要看在此状态s下哪个动作会导致最大reward和状态值最高的状态s’，就选那个动作(greedy)（DP就是这样）；而模型未知时，只知道v(s)就不足以决定策略了。所以考虑用策略评估估计动作值。
仍然用first-visit prediciton进行评估，一次visit指状态s被访问并且执行了动作a。
问题：策略固定之后，不会被访问的(s,a)pair就永远不会执行，缺乏其他动作探索。
改进：带探索启动的动作值评估Exploring Starts(ES)。specify that每个episode都由一个state-action pair启动，每个pair都有一定概率作为start。这样就能保证所有的pair都被采样到。（后续问题都以ES为条件）
ES的问题：在直接从真实的和环

最低0.47元/天解锁文章

feiba54

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记（一）

第五章蒙特卡洛方法（MC）（一）MC策略评估1.MC prediction: 估计状态值First-visit MC prediction算法，用来估计每个状态值。也有every-visit，不过没有first-visit用的多-和DP相比：MC方法对每个状态值的估计是独立的，没有用到自己以前的状态，称为没有用到bootstraping2.MC estimation of action values: 估计动作值在模型不可知的情况下，估计状态动作值q(s,a)比估计状态值v(s)更有用。这是因
复制链接

扫一扫