强化学习
popo-shuyaosong
这个作者很懒,什么都没留下…
展开
-
David Silver-强化学习笔记【2. Markov决策过程】
David Silver-强化学习笔记【2. Markov决策过程】2.1 马尔科夫过程(Markov Process)2.1.1 马尔科夫性(Markov Property)2.1.2 马尔科夫链(Markov Chains)2.1.2.1 一个示例(Student Markov Chain)2.2 马尔科夫奖励过程(Markov Reward Process,MRP)2.2.1 价值函数(Value Function)2.1 马尔科夫过程(Markov Process)在强化学习中,马尔科夫决策过程原创 2020-06-16 15:40:16 · 482 阅读 · 0 评论 -
强化学习_重要知识点总结(持续更新)
强化学习_知识点笔记马尔科夫性马尔科夫性马尔科夫性是一种假设的性质,某个环境具有Markov性,则表现为下一时刻的state,仅由当前state决定,与过去的history没有太大关系。如果身处markov状态,就会一直在markov状态。数学表达式:P[St+1∣St]=P[St+1∣S1,…,St]\mathbb{P}\left[S_{t+1} | S_{t}\right]=\mathbb{P}\left[S_{t+1} | S_{1}, \ldots, S_{t}\right]P[St+1∣S原创 2020-06-13 20:15:40 · 709 阅读 · 0 评论 -
David Silver-强化学习笔记【1.强化学习介绍】
David Silver-强化学习笔记【1.强化学习介绍】1.1 强化学习特点1.2 RL相关术语1.2.1 reward1.2.2 environment1.2.3 state1.1 强化学习特点不存在监督者,训练过程就是试错的过程,根据奖励信号指导行为,不需要提前知道环境的信息(比如不需要提前知道游戏的信息,通过试错知道如何获得高分)。反馈可能存在延时,一个episode结束后才修正决策,并不是立马修正。(也可以即时反馈吧?)研究时间序列的行为,而不是独立同分布的数据。需要一个动态的系统,a原创 2020-05-30 10:36:54 · 809 阅读 · 0 评论 -
David Silver-强化学习笔记【课程提纲】
参考资料B站视频课程pptDavid Silver强化学习公开课中文讲解及实践课程提纲整个视频公开课分为十讲,分为两个部分。其中前5讲是第一部分,偏重于基础理论;后5讲是第二部分,偏重于解决大规模问题的应用理论。第一部分:强化学习基础理论强化学习简介Markov决策过程理论基础,对于描述强化学习问题很重要动态规划(Dynamic Programming)小规模强化学习问题的一种解决方案Model-Free Prediction理论核心Model-Free Cont.原创 2020-05-30 10:03:00 · 236 阅读 · 0 评论 -
深度强化学习_参考资料
深度学习-刘建平Pinard深度强化学习-刘建平Pinard原创 2020-05-17 16:47:46 · 400 阅读 · 0 评论