1. 什么是蒙特卡诺?
- Monte Carlo是一种基于概率与统计学的算法;
- 该方法是通过大量随机实验,利用统计学方法获得领域问题中的随机过程的接近真实的分布;
- 该方法的优势在于通用性,不受领域知识的限制
2. 何时使用蒙特卡洛方法?
根据贝尔曼期望方程和最优方程可知,要通过动态规划的方式求解最优策略,必须首先知道立即回报期望矩阵
R
R
R和状态转移数组
P
P
P,否则,无法求解状态值函数
V
(
s
)
V(s)
V(s)及行为值函数
Q
(
s
,
a
)
Q(s,a)
Q(s,a),而实际中,智能体往往不知道环境动力学(即R、P都未知)。在这种情况下,可以考虑使用蒙特卡洛方法,根据
V
(
s
)
V(s)
V(s)和
Q
(
s
,
a
)
Q(s,a)
Q(s,a)的定义,通过与环境的交互,进行随机抽样,并统计结果,从而得到接近真实
V
(
s
)
V(s)
V(s)和
Q
(
s
,
a
)
Q(s,a)
Q(s,a)的真实分布,在此基础上,进行策略改进。
一句话:当环境模型参数R和P未知时,使用蒙特卡洛方法获取状态值函数或行为值函数的估计,在此基础上进行策略改进。