前言
RL学习笔记——蒙特卡洛算法
Monte Carlo Methods(MC)
基于动态规划的求解值函数与策略需要知道环境的模型,也就是状态转移函数与奖励函数,而蒙特卡洛采样方法是不需要知道这些内容即可求解值函数与最优策略。
1.特点
MC方法直接从episodes的经验中进行学习,是基于model-free的算法,无需知道模型的转移函数,MC是从完整的episodes中进行学习,从一个状态出发到达最终状态中止,因此MC要求所有的episodes必须终止,其思想是平均回报代替价值。
2.策略评估
在给定策略
π
\pi
π下,从一系列的episodes经验中学习价值函数
v
π
v_{\pi}
vπ,采样序列为
{
S
1
,
A
1
,
R
2
,
.
.
.
.
.
S
k
}
\{S_1,A_1,R_2,.....S_k\}
{S1,A1,R2,.....Sk},计算带折扣的回报
价值函数是回报的期望,MC策略评估采用每个状态的平均回报代替回报的期望。
3.first-visit MC策略评估
做法:针对某个状态
S
i
S_i
Si,在一次episode当中,只考虑第一次出现该状态的回报,在该次episode后续当中再次出现则不考虑。例如:
对于第一个eposide当中的红色点的状态,在该次采样当中出现了两次,但在多次采样后计算红色点状态的平均回报时,第一个episode当中只采样第一次出现红色点状态的回报
4.every-visit MC策略评估
做法:针对某个状态 S i S_i Si,在一次episode当中,考虑每一次出现该状态的回报,多次采样后,对每个episode中出现过 S i S_i Si的回报求平均回报。
5.价值函数更新方式
采用增量式均值更新方式,如图所示:
在MC策略评估中的更新步骤如下:
总结
MC更新方式图示: