强化学习之路1(马尔科夫)
前两天认真思考了自己的研究方向,自己导师一直让我阅读论文自己找一个方向,自己硕士期间是做深度学习相关的,但是博导不怎么做相关的领域,并觉得深度相关的知识在我们领域只是应用,其创新点很难支撑一个博士毕业,所以自己也是看了几十篇论文,实在是找不到太好的方向。自己实验室有人做强化学习相关的,老师也给我提过,是一个比较热,比价有潜力的方向,所以自己就在知乎上查询该如何入门强化学习,搜到了David Silver主讲的一套强化学习视频公开课,较为系统、全面地介绍了强化学习的各种思想、实现算法。同时自己参考了知乎大神叶强的学习笔记,这只是自己的记录,如有侵权,自己会删除掉。
有需要视频的可以在B站搜索观看,如果大家有需要课程PPT的可以免费分享给大家。
第一天没有记录是因为介绍的都是一些比较基础的东西以及概念,或者是强化学习在当今世界的应用,所以没有记录,从第二讲开始,算是正式进入了强化学习的部分。
在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。
马尔科夫过程 Markov Property
马尔科夫过程 Markov Property
马尔科夫过程 又叫马尔科夫链(Markov Chain),它是