David Silver学习
文章平均质量分 87
Mr_Wang_up
这个作者很懒,什么都没留下…
展开
-
David Silver 第三讲 动态规划(DP)(第一部分)
一、参考文献1、David Silver 第三讲2、《强化学习第二版》二、引言前面的博客介绍了RL的基本应用场景——马尔科夫决策过程(MDP);还介绍了基本的数学公式——贝尔曼期望方程和贝尔曼最优方程。但是并没有应用到真实的例子中,本节的目标就是用DP算法来寻找真实的例子中的最优策略。其实本质上利用贝尔曼方程是可以解出RL的解的,但是涉及矩阵求逆等,当环境的维数比较大时,计算复杂度比较高。实际中常用的价值函数的计算都是利用迭代的方式进行的。三、DP是什么我认为这个不是RL的重点,原创 2021-03-28 21:44:04 · 397 阅读 · 0 评论 -
David Silver 第二讲MP&MRP基本概念
@强化学习中的马尔可夫决策过程MDP马尔可夫过程MPDefinition:The Future is independent of the past given the present.将来和过去是独立的,只和现在有关。: P(St+1|St) = P(St+1|S1,S2,…St) :由此可见,t时刻到t+1时刻的转移只和这两个时刻有关,和其他时刻无关。马尔可夫奖励过程MRP马尔可夫奖励过程 可以认为是 马尔可夫过程+奖励在MRP中最重要的就是要区分奖励,回报,价值先做定义:奖励:原创 2020-11-05 16:21:06 · 475 阅读 · 0 评论 -
David Silver 第二讲MDP基本概念(通俗理解)
David Silver 第二讲MDP基本概念本文只是作者个人理解,如有错误,欢迎各位指正。一、基本定义MDP过程是一个五元组——状态空间+行为空间+状态转移概率空间+奖励+折扣因子其中,状态空间,折扣因子类比于MRP(马尔可夫奖励过程)对于,行为空间:一组有限行为的集合,例:走迷宫游戏的(上下左右四个动作)构成行为空间 状态转移概率:与MP(马尔可夫过程)和MRP(马尔可夫奖励过程)不同,MDP加入了行为(Action)的影响。例:无人操控的小船状态转移完全...原创 2020-11-06 11:15:43 · 2426 阅读 · 0 评论