上次内容:
Model-Free Prediction。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。
希望在未给出MDP的情况下,进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))。
Model-Free Prediction有两大方法:Monte-Carlo Learning和Temporal-Difference Learning。
本次内容:
Model-Free Control。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。
希望在未给出MDP的情况下,进行Control(理想情况是policy也没有给出,Optimise the value function of an unknown MDP)。
Model-Free Control有两大方法:on-policy Learning和off-policy Learning;其中,on-policy Learning又分为on-policy MC和on-policy TD。
Model-Free Control解决的问题:
Optimise the value function of an unknown MDP
要实现Model-Free Control,可用的解决方案:
回忆上两节课optimal MDP的两种方法:policy iteration和value iteration。