Lecture 5: Model-Free Control
https://www.davidsilver.uk/wp-content/uploads/2020/03/control.pdf
Introduction
同策略和异策略概念,同策略说的是用于采样sample的p和要学习更新的policy一致,即learn on the job。异策略知道是学习和采样用不同的策略。
On-Policy Monte-Carlo Control
MC策略迭代在估计中用q函数 ,在策略改进中用的
GLIE用于解决学习开始时有足够的探索,最终得到的策略没有探索,是一个确定策略的问题。最终收敛到的greedy策略即为确定性策略。
On-Policy Temporal-Difference Learning
更改同策略MC控制中对值函数的估计的MC方法换位TD方法,将每个片段对值函数更新一次换位每个时间步更新一次。这里策略估计方法是sarsa。
与TD类似 n步 sarsa
Sarsa(λ)算法
Off-Policy Learning
异策略学习的好处
这里是Q-learning的定义,学了这么多终于将回到q-learning了。具体的解释可以看之前博文的第一篇人工智能学习笔记一之强化学习(Q-learning)
https://blog.csdn.net/dzcera/article/details/122634257
其中最显著的好处在于使用一个探索性策略的同时学习了一个确定性策略。
Summary