蒙特卡罗方法
动态规划中估计的是状态值,然后通过状态值来获取动作值,但在模型末知的情况下,
智能体不知道环境的所有状态,无法对状态值进行预估,导致无法通过状态值来获取动作值,
因些在免模型的情况下,我们将估计对象从V转变为Q。
蒙特卡罗方法是在进行一个阶段的采样后再更新值函数。
通过与环境互动评估策略 π π π的方法分为两大类别:
异同策略方法使智能体与环境互动时遵守的策略 π π π与要评估(或改进)的策略相同。
离线策略方法使智能体与环境互动时遵守的策略 b b b(其中 b ≠ π b≠π b̸=π)与要评估(或改进)的策略不同。
状态 s ∈ S s∈S s∈S在某个阶段中的每次出现称为 s s s的一次经历
1、动作值评估:
有两种类型的蒙特卡洛 (MC) 的预测方法 :
首次经历 MC 将一个阶段的 q π ( s , a ) q_π(s,a) qπ(s,a)估算为 ( s , a ) (s,a) (s,a)首次经历之后的平均回报(即忽略与后续经历相关的回报);
所有经历 MC 将一个阶段的 q π ( s , a ) q_π(s,a) qπ(s,a)估算为 ( s , a ) (s,a) (s,a)所有经历之后的平均回报。
q ( s , a ) = 1 k ∑ i = 1 k r i q(s,a) = \frac{1}{k}\sum^k_{i=1}r_i q(s,a)=k1