强化学习笔记： generalized policy iteration with MC

UQI-LIUWJ

于 2021-10-28 14:38:17 发布

阅读量635

点赞数

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/121012559

版权

强化学习专栏收录该内容

58 篇文章

订阅专栏

本文介绍了强化学习中的广义策略迭代方法，针对无模型的MDP，使用蒙特卡洛（MC）方法估计Q函数，并结合ε-贪婪策略进行探索。在ε-greedy策略中，大部分时间依据Q函数选择行动，但保留一定概率随机选取，以平衡探索与利用。策略提升定理也在文中被提及，说明了如何通过MC方法不断改进策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习笔记： MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客

强化学习笔记：Q-learning_UQI-LIUWJ的博客-CSDN博客

在policy iteration中，我们根据给定的当前的 policy π 来估计价值函数；得到估计的价值函数后，通过 greedy 的方法来改进它的算法。

但是对于model-free 的MDP，我们并不知道它的奖励函数和状态转移，所以就没法估计它的Q函数。

1广义policy iteration

针对上述情况，我们引入了广义的 policy iteration 的方法。

我们对 policy evaluation 部分进行修改：用 MC 的方法代替 DP 的方法去估计 Q 函数。

算法通过 MC 的方法产生了很多的轨迹，每个轨迹都可以算出它的价值。然后，我们可以通过 average 的方法去估计 Q 函数。

当得到 Q 函数后，就可以通过 greedy 的方法去改进它。

1.1 MC with ε-Greedy Exploration

1.1.1 ε-greedy

为了确保 MC 方法能够有足够的探索，我们使用了 ε-greedy exploration。

ε-greedy 的意思是说，我们有1−ε 的概率会按照 Q-function最大来决定 action，通常ε 就设一个很小的值，比如1−ε 可能是 90%，也就是 90% 的概率会按照 Q-function最大来决定 action（exploitation），但是你有 10% 的机率是随机的（exploration）。

通常在实现上ε 会随着时间递减。在最开始的时候。因为还不知道那个 action 是比较好的，所以你会花比较大的力气在做 exploration。

接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的 exploration，你会把ε 的值变小，主要根据 Q-function最大来决定你的 action，比较少做 random，这是ε-greedy。

1.1.2 MC with ε-Greedy Exploration

可以看出来，和强化学习笔记：Q-learning_UQI-LIUWJ的博客-CSDN博客中的MC没有太大的区别，唯一区别就是episode怎么采样的问题

1.1.3 策略提升定理

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。