reinforcement learning，增强学习：Value Function Approximation

最新推荐文章于 2025-04-16 18:18:45 发布

mmc2015

最新推荐文章于 2025-04-16 18:18:45 发布

阅读量5.5k

点赞数 5

分类专栏：（深度）增强学习文章标签： reinforcement learni 增强学习 Value Function Appro

本文链接：https://blog.csdn.net/mmc2015/article/details/52908908

版权

上次内容：

Model-Free Control。所谓model-free，是指没有给定MDP（即MDP未知，甚至不知道是不是MDP过程）。

希望在未给出MDP的情况下，进行Control（理想情况是policy也没有给出，Optimise the value function of an unknown MDP）。

Model-Free Control有两大方法：on-policy Learning和off-policy Learning；其中，on-policy Learning又分为on-policy MC和on-policy TD。

optimal MDP的两种方法：policy iteration和value iteration。policy iteration：在MDP已知而policy未知的情况下，采取一个随机policy π，然后evaluate 该policy π，之后对π进行improve得到较优的policy π'，然后对π'进行evaluation，然后再improve，循环该过程。=====》这就解决了policy π未知的问题（随机一个π，然后循环evaluation和improvement）。

model-free prediction（evaluation）的两种方法：Monte-Carlo Learning和Temporal-Difference Learning；两者本质都是采样，前者必须采样到terminal state得到平均的return（对真实Gt的近似），后者只向前采样一步进行on-line的更新。=====》这就解决了MDP未知的问题（采样即可）。

综合上面两者，在Model-Free Control的假设下（policy未知，MDP未知），可以：随机一个policy π，使用MC或者TD的方法（采样得到近似Gt，而不是真正的Gt）进行policy evaluation，然后进行greedy policy improvement，然后循环该过程！=====》称该过程为Model-Free Policy Iteration。

最低0.47元/天解锁文章