无模型策略评估：蒙特卡洛（MC）方法估计

最新推荐文章于 2024-05-13 18:29:31 发布

ggjkd

最新推荐文章于 2024-05-13 18:29:31 发布

阅读量1k

点赞数

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ggjkd/article/details/114643775

版权

强化学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

无模型策略评估：蒙特卡洛（MC）方法估计

一、蒙特卡洛（MC）方法可以解决什么强化学习问题

MC基于统计（大数）原理，可解决无模型的强化学习问题。核心思想为：智能体不断与环境交互，产生一系列历史轨迹（s,a,r,…,s,a,r，从开始到结束），通过索引历史轨迹中具体某个状态、行为下的累计回报G，并用他们的均值来估计这个状态、行为的值函数。

二、 MC增量更新值函数的算法

1、 MC一般更新算法

根据核心思想：
在这里插入图片描述
图中V（s）亦可为Q（s,a）；一般情况下，都是估计Q（s,a），因为根据贝尔曼最优，它可以直接得出最优策略。

2、增量更新方法

思路：每一条历史轨迹有一个累计回报G，每有一个G，就更新一次V or Q，具体算法如下：
在这里插入图片描述
以上算法，都是MC发挥其策略评估的作用，最终都要用于策略更新。

三、 epsilon-贪婪法

上面提到策略更新，就不得不提epsilon-贪婪法：
一般贪婪法和epsilon-贪婪法都用于策略更新上，一般贪婪法就是取Q值函数最大的a，使这个a的概率为1；epsilon-贪婪法考虑随机搜索，以概率epsilon进行随机取样，于是Pi（s|a）的概率就变为：
在这里插入图片描述
当然，epsilon可以在更新过程中逐渐衰减，变成自适应，是的更新到后面减少随机性，使决策结果更可靠。

四、 on-policy & off-policy

1、on-policy 在线策略

只有一个策略，智能体在这个策略下，和环境交互，获得历史轨迹；根据历史轨迹的平均回报来估计值函数；根据值函数，采用贪婪法或epsilon-贪婪法更新这个策略；循环至策略收敛。

2、off-policy 离线策略

有两个策略，一个是行为策略，一个是目标策略；智能体在行为策略下和环境交互，产生历史轨迹，并根据历史轨迹的平均回报来估计值函数；于此同时，目标策略根据这个估计值函数，采用贪婪法来更新自己的策略（但需要保证，这个估计值函数最大值对应的行为和目标策略在这个状态s下的行为a一致，简言，就是用别人的argmaxQ(s,a) 来更新自己的Pi(a|s)=1）
在这里插入图片描述
优势：智能体可以不用自己探索，可以参考别人探索产生的历史数据或旧的历史数据，所以叫离线。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
无模型策略评估：蒙特卡洛（MC）方法估计

无模型策略评估：蒙特卡洛（MC）方法估计一、蒙特卡洛（MC）方法可以解决什么强化学习问题MC基于统计（大数）原理，可解决无模型的强化学习问题。核心思想为：智能体不断与环境交互，产生一系列历史轨迹（s,a,r,…,s,a,r，从开始到结束），通过索引历史轨迹中具体某个状态、行为下的累计回报G，并用他们的均值来估计这个状态、行为的值函数。二、 MC增量更新值函数的算法1、 MC一般更新算法根据核心思想：图中V（s）亦可为Q（s,a）；一般情况下，都是估计Q（s,a），因为根据贝尔曼最优，它可以直
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。