15. 蒙特卡诺简介

1. 什么是蒙特卡诺?

  • Monte Carlo是一种基于概率与统计学的算法;
  • 该方法是通过大量随机实验,利用统计学方法获得领域问题中的随机过程的接近真实的分布;
  • 该方法的优势在于通用性,不受领域知识的限制

2. 何时使用蒙特卡洛方法?

根据贝尔曼期望方程和最优方程可知,要通过动态规划的方式求解最优策略,必须首先知道立即回报期望矩阵 R R R和状态转移数组 P P P,否则,无法求解状态值函数 V ( s ) V(s) V(s)及行为值函数 Q ( s , a ) Q(s,a) Q(s,a),而实际中,智能体往往不知道环境动力学(即R、P都未知)。在这种情况下,可以考虑使用蒙特卡洛方法,根据 V ( s ) V(s) V(s) Q ( s , a ) Q(s,a) Q(s,a)的定义,通过与环境的交互,进行随机抽样,并统计结果,从而得到接近真实 V ( s ) V(s) V(s) Q ( s , a ) Q(s,a) Q(s,a)的真实分布,在此基础上,进行策略改进。
一句话:当环境模型参数R和P未知时,使用蒙特卡洛方法获取状态值函数或行为值函数的估计,在此基础上进行策略改进。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aganim

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值