强化学习
文章平均质量分 79
本专栏深入浅出从0开始讲述强化学习理论知识,以及项目实践。
OscarMind
这个作者很懒,什么都没留下…
展开
-
第二课:动态规划
1.什么是动态规划?之前提到解决序列决策问题有两种手段----学习与规划 当前有一个精确的环境模型时,可以用动态规划去解 编程算法中也有动态规划的概念,与其相似 总的来说,就是将问题分解成子问题,通过解决子问题,来解决原问题动态:针对序列问题规划:优化,得到策略贝尔曼方程是关键2.动态规划可以解决什么问题?动态规划是一种解决问题的方法,什么样的问题能使用动态规划去解?...原创 2018-07-25 00:01:08 · 615 阅读 · 0 评论 -
第一课:一文读懂马尔科夫过程
1.马尔科夫决策过程(MDPs)简介马尔科夫决策过程是对强化学习(RL)问题的数学描述。几乎所有的RL问题都能通过MDPs来描述:最优控制问题可以用MDPs来描述; 部分观测环境可以转化成POMDPs; 赌博机问题是只有一个状态的MDPs;注:虽然大部分DL问题都能转化为MDPs,但是以下所描述的MDPs是全观测的情况。强化学习中的表述符号:2.马尔科夫性只要知...原创 2018-07-14 00:57:29 · 35757 阅读 · 8 评论