Reinforcement Learning
MartianCoder
这个作者很懒,什么都没留下…
展开
-
Example 3.8:Gridworld
#include "iostream" using namespace std; const int GridCnt = 5; const int MaxIterations = 1000; int main() { int IterationCnt = 0; double Gamma = 0.9; double SelectProbability = 0.25; doubl原创 2017-07-21 23:23:33 · 1054 阅读 · 2 评论 -
Chapter 5:Monte Carlo Methods
1.蒙特卡罗方法定义在episode task上,所谓的episode task就是指不管采取哪种策略π,都会在有限时间内到达终止状态并获得回报的任务。比如玩棋类游戏,在有限步数以后总能达到输赢或者平局的结果并获得相应回报。 2.蒙特卡罗方法,与DP不同的是,这里不需要对环境的完整知识。蒙特卡罗方法仅仅需要经验就可以求解最优策略,这些经验可以在线获得或者根据某种模拟机制获得。那么什么是经验呢?经...原创 2018-10-19 11:47:45 · 176 阅读 · 0 评论