强化学习蒙地卡罗MC更新公式原理,通俗易懂

1.理论基础

在学习蒙地卡罗更新公式原理之前我们要要了解一下三个理论基础

1.1 伯努利大数定理

进行N次独立重复实验,随着试验次数的增大,事件A发生的频率\frac{na}{N}依概率收敛为事件A发生的概率P_{a}

1.2 辛钦大数定理

 1.3 切比雪夫大数定理

 数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

2.蒙地卡罗原理

通常蒙特卡罗方法通过构造符合一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题,蒙特卡罗方法是一种有效的求出数值解的方法。

 2.1 强化学习中蒙地卡罗的应用

  1. 我们把智能体放到环境的任意状态;
  2. 从这个状态开始按照策略进行选择动作,并进入新的状态。
  3. 重复步骤2,直到最终状态;
  4. 我们从最终状态开始向前回溯:计算每个状态的G值。
  5. 重复1-4多次,然后平均每个状态的G值,这就是我们需要求的V值。

这里我看到一篇文章写的特别好分享给大家

https://zhuanlan.zhihu.com/p/109755443 

在强化学习中,我们最常接触到的两个量是Q和V,这里用蒙地卡罗的方式来估算V。

开始前我们先明确G的意义是某个状态到最终状态的一个类和。

 当我们进行多次试验后,我们有可能会经过某个状态多次,通过回溯,也会有多个G值。 重复我们刚才说的,每一个G值,就是每次到最终状态获得的奖励总和。而V值时候某个状态下,我们通过影分身到达最终状态,所有影分身获得的奖励的平均值。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值