上次内容:
Model-Free Control。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。
希望在未给出MDP的情况下,进行Control(理想情况是policy也没有给出,Optimise the value function of an unknown MDP)。
Model-Free Control有两大方法:on-policy Learning和off-policy Learning;其中,on-policy Learning又分为on-policy MC和on-policy TD。
optimal MDP的两种方法:policy iteration和value iteration。policy iteration:在MDP已知而policy未知的情况下,采取一个随机policy π,然后evaluate 该policy π,之后对π进行improve得到较优的policy π',然后对π'进行evaluation,然后再improve,循环该过程。=====》这就解决了policy π未知的问题(随机一个π,然后循环evaluation和improvement)。
model-free prediction(evaluation)的两种方法:Monte-Carlo Learning和Temporal-Difference Learning;两者本质都是采样,前者必须采样到terminal state得到平均的return(对真实Gt的近似),后者只向前采样一步进行on-line的更新。=====》这就解决了MDP未知的问题(采样即可)。
综合上面两者,在Model-Free Control的假设下(policy未知,MDP未知),可以:随机一个policy π,使用MC或者TD的方法(采样得到近似Gt,而不是真正的Gt)进行policy evaluation,然后进行greedy policy improvement,然后循环该过程!=====》称该过程为Model-Free Policy Iteration。