11.23 学习强化学习第二天——马尔科夫

强化学习之路1(马尔科夫)

前两天认真思考了自己的研究方向,自己导师一直让我阅读论文自己找一个方向,自己硕士期间是做深度学习相关的,但是博导不怎么做相关的领域,并觉得深度相关的知识在我们领域只是应用,其创新点很难支撑一个博士毕业,所以自己也是看了几十篇论文,实在是找不到太好的方向。自己实验室有人做强化学习相关的,老师也给我提过,是一个比较热,比价有潜力的方向,所以自己就在知乎上查询该如何入门强化学习,搜到了David Silver主讲的一套强化学习视频公开课,较为系统、全面地介绍了强化学习的各种思想、实现算法。同时自己参考了知乎大神叶强的学习笔记,这只是自己的记录,如有侵权,自己会删除掉。
有需要视频的可以在B站搜索观看,如果大家有需要课程PPT的可以免费分享给大家。
第一天没有记录是因为介绍的都是一些比较基础的东西以及概念,或者是强化学习在当今世界的应用,所以没有记录,从第二讲开始,算是正式进入了强化学习的部分。

在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。

马尔科夫过程 Markov Property

马尔科夫过程 Markov Property

马尔科夫过程 又叫马尔科夫链(Markov Chain),它是

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值