[RL] 5 Monte Carlo Methods (1)
——清明给自己放了假,见了高中老铁和他妻子,谨以此博客献给这幸福的一对,就这样度过一生哦:) 我们开始讲我们的第一个估计value functions、发现optimal policies的学习方法。
由于这一系列[RL]的博客都是围绕着增强学习问题讲的,因此建议从[RL] 3 Finite Markov Decision Processes (1)看起,至少需要了解建好的MDP模型。
与
原创
2017-04-05 23:20:11 ·
1640 阅读 ·
0 评论