强化学习3-蒙特卡罗MC

最新推荐文章于 2024-01-17 22:22:22 发布

weixin_30411239

最新推荐文章于 2024-01-17 22:22:22 发布

阅读量151

点赞数

原文链接：http://www.cnblogs.com/yanshw/p/10391106.html

版权

　　

之前讲到强化学习可以用马尔科夫决策过程来描述，通常情况下，马尔科夫需要知道 {S A P R γ}，γ是衰减因子，那为什么还需要蒙特卡罗呢？

首先什么是蒙特卡罗？

蒙特卡罗实际上是一座赌城的名字，蒙特卡罗方法是冯诺依曼用这座赌城的名字起的。

蒙特卡罗方法的主要思想是：当求解的问题是某随机事件出现的概率，或者某随机变量的期望时，可以采用多次采样，以该事件出现的频率来估计其概率，以该变量的均值来估计其期望。并以此来代替问题的解。

那么为什么要用蒙特卡罗方法？

在真实的场景中，我们经常没法确定状态转移概率P，或者根本就是完全随机，那么我们就无法计算该状态的价值函数，但是依然要解决这类问题，怎么办？

一个可行的思路是：虽然没有状态转移概率，但是这个概率是存在的，或者说通过一个动作一定能够使该状态转换到另一个状态，那么我们可以重复试验很多次，然后求该状态每次试验的价值平均，这就是蒙特卡罗思想。

下面来具体看看蒙特卡罗的数学描述

1.首先蒙特卡罗问题的使用条件{S A γ} , 在控制问题中还需要ε，无需状态转移概率P , 和即时奖励R（这个可以有） , 当然有 π（pai）是策略评估，预测问题，无π 是策略优化，控制问题。

2.蒙特卡罗是通过试验来计算价值函数的，根据贝尔曼方程，v_π(s)=E_π(R_t+1+γR_t+2+γ²R_t+3+...|S_t=s) , 需要知道整个回合episode的奖赏R , 而且有些情况下不到最后是没有奖赏的，如下棋，完了才有输赢，故蒙特卡罗需要生成整个回合。即每次试验要从起点到终点。

当然起点和终点不一定是固定的，根据具体规则来确定，如下棋，起点不一定就是开局，也可以从中间某步开始，比如街边老头摆的棋阵，再如走迷宫，可以有多个入口，多个出口，只要从大家公认的起点到终点，就算走出迷宫。

3.理论上完整序列越多，学习效果越好

仔细思考下，会发现如下几个问题

1. 在走迷宫时，可能经常会出现在同一个位置，绕来绕去，这相当于某个状态在整个回合中多次出现，也有可能某个状态在整个回合中没有出现，那么这种情况如何处理呢？下面会讲到。

2.生成完整序列 S₁,A₁,R₂, | S₂,A₂,R₃|...S_t,A_t,R_t+1|,...S_t-1,A_t-1,R_T, | S_{T ,}最终状态没有动作和奖励，然后根据贝尔曼方程把 R 加起来，但是这里的 R 明明应该是动作价值函数，为什么可以用来求平均状态价值？

解答：

首先，状态价值函数 v_π(s)=∑_a_∈_Aπ(a|s)q_π(s,a) ，动作价值函数的加权和；

其次，在我们生成完整序列时，在某状态下是根据我们未知（控制）或已知（预测）的策略来选择动作，从而转换到下一个状态，那么重复多次试验，在该状态转换到下一个状态的既定事实是符合 π 的，

如在s时的策略 1/3 选a ， 2/3 选b，那我们重复3次试验，最后的结果应该是 1次 s a s', 2次 s b s'', 然后把这些动作价值函数加起来， q₁+q₂+q₂ = 1/3 q₁ + 2/3q₂= π * q　

而且，需要搞清楚一点是：

策略评估求的是状态价值函数，因为策略已定，就是看这种策略下的价值大小，

而策略评价求的是动作价值函数，因为目的是找策略，就是看每个状态下不同动作的价值大小

下面我们来看看蒙特卡罗方法解决策略评估问题，顺便解决上个问题1

1 输入 {S A R γ π}，初始化价值表和状态计数表

2.循环　　生成完整序列 S₁,A₁,R₂, | S₂,A₂,R₃|...S_t,A_t,R_t+1

转载于:https://www.cnblogs.com/yanshw/p/10391106.html

weixin_30411239

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。