强化学习笔记: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客
强化学习笔记:Q-learning_UQI-LIUWJ的博客-CSDN博客
在policy iteration中,我们根据给定的当前的 policy π 来估计价值函数;得到估计的价值函数后,通过 greedy 的方法来改进它的算法。
但是对于model-free 的MDP,我们并不知道它的奖励函数和状态转移,所以就没法估计它的Q函数。
1广义policy iteration
针对上述情况,我们引入了广义的 policy iteration 的方法。
我们对 policy evaluation 部分进行修改:用 MC 的方法代替 DP 的方法去估计 Q 函数。
算法通过 MC 的方法产生了很多的轨迹,每个轨迹都可以算出它的价值。然后,我们可以通过 average 的方法去估计 Q 函数。
当得到 Q 函数后,就可以通过 greedy 的方法去改进它。
1.1 MC with ε-Greedy Exploration
1.1.1 ε-greedy
为了确保 MC 方法能够有足够的探索,我们使用了 ε-greedy exploration。
ε-greedy 的意思是说,我们有1−ε 的概率会按照 Q-function最大来决定 action,通常ε 就设一个很小的值, 比如1−ε 可能是 90%,也就是 90% 的概率会按照 Q-function最大 来决定 action(exploitation),但是你有 10% 的机率是随机的(exploration)。
通常在实现上ε 会随着时间递减。在最开始的时候。因为还不知道那个 action 是比较好的,所以你会花比较大的力气在做 exploration。
接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的 exploration,你会把ε 的值变小,主要根据 Q-function最大来决定你的 action,比较少做 random,这是ε-greedy。
1.1.2 MC with ε-Greedy Exploration
可以看出来,和强化学习笔记:Q-learning_UQI-LIUWJ的博客-CSDN博客 中的MC没有太大的区别,唯一区别就是episode怎么采样的问题
1.1.3 策略提升定理