目录
2 Bellman Expectation Equation
4 重点:policy evaluation/Prediction
Difference between Policy Iteration and Value Iteration
0 Bellman Equation
接下来我们来求解这个价值函数。
首先我们用蒙特卡罗 (Monte Carlo) 的办法来计算它的价值函数。蒙特卡罗就是说当得到一个 MRP 过后,我们可以从某一个状态开始,把这个小船放进去,让它随波逐流,这样就会产生一个轨迹。产生了一个轨迹过后,就会得到一个奖励,那么就直接把它的折扣的奖励 g 算出来。算出来过后就可以把它积累起来,得到 return Gt。当积累到一定的轨迹数量过后,直接用 Gt 除以轨迹数量,就会得到它的价值。
1 Q 函数的 Bellman equation
2 Bellman Expectation Equation
通过对状态-价值函数进行一个分解,我们就可以得到一个类似于之前 MRP 的 Bellman Equation,这里叫 Bellman Expectation Equation,如式所示:
3 重点:Prediction and Control
MDP 的 predicti