(Optimise the value function of an unknown MDP)
On-policy learning —— Learn about policy π from experience sampled from π
Off-policy learning —— Learn about policy π from experience sampled from u
- On-Policy Monte-Carlo Control
如果在已知environment情况下policy improvement更新方式是π‘(s)=argmaxa∈ARas+Pass′V(s‘),可以看出它的解决方案是通过状态转移矩阵把所有可能转移到的状态得到的值函数都计算出来,从中来选择最大的,但未知environment则没有状态转移矩阵,因此只能通过最大化动作值函数来更新policy即π‘(s)=argmaxa∈AQ(s,a)。由于improvement的过程需要动作值函数,那么在policy evaluation的过程中针对给定的policy需要计算的V(s)也替换成Q(s,a)。
Policy evaluation: Monte-Carlo policy evaluation Q=qπ
Policy improvement: e-greedy exploration(以一定的概率e选择随机的action)