机器学习
文章平均质量分 78
陈伟chenwei
这个作者很懒,什么都没留下…
展开
-
增强学习(二)----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。 马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性,转载 2017-12-27 17:34:34 · 432 阅读 · 0 评论 -
增强学习(一)——马尔科夫决策过程(MDP)
最近因为研究需要,要开始学习机器学习了。之前只是懂些CNN什么的皮毛,对机器学习的整体认识都比较缺乏,后面我会从头开始一点点打基础,正好也用博客把自己的学习历程记录一下,如果有大牛看到博文中有错误,欢迎指正! 正好目前有个智能控制的小项目,我就先从增强学习开始。主要的参考文献是吴恩达的专题论文:Shaping and policy search in Rei原创 2017-12-29 00:09:53 · 2879 阅读 · 0 评论 -
增强学习(二)——策略迭代与值迭代
在上一篇文章中,我主要介绍了马尔可夫决策过程(MDP)。在了解了增强学习的基本思想后,我们便可以继续讨论“最优策略”的求解方法: 我们之前已经说到了MDP可以表示成一个元组(X, A, Psa, R),我们对最优策略的求解方法自然也就与这个元组密切相关:如果该过程的四元组均为已知,我们称这样的模型为“模型已知”,对这种已知所有环境因素的学习称为“有模型学习”(model-basedl原创 2017-12-29 00:15:25 · 2852 阅读 · 1 评论