文章目录
Reference
[1] https://github.com/datawhalechina/easy-rl
[2] David_Silver: https://www.youtube.com/watch?v=Nd1-UUMVfz4&t=1113s
1. 预测(Prediction)
定义
输入策略和MDP五元组,输出策略的状态价值函数 v π v_\pi vπ。
1.1 策略评估(Iterative Policy Evaluation)
(1)定义
一种预测方法。通过重复迭代贝尔曼期望方程,直至方程收敛,来获得状态价值函数 v π v_\pi vπ。
(2)举例
2. 控制(Control)
(1)定义
输入MDP五元组,输出最优策略 π ∗ \pi_* π∗和最优价值函数 v ∗ v_* v∗。
2.1 策略迭代(Policy Iteration)
(1)定义
策略迭代由策略评估(P