- 博客(2)
- 收藏
- 关注
原创 David Silver强化学习笔记-Lecture 2: Markov Decision Processes
Lecture 2: Markov Decision Processes(马尔科夫决策过程) 一、Marokov Process (一)Introduction Introduction to MDPs 马尔可夫决策过程正式描述了强化学习的环境 我们希望有一些对环境的描述。 环境是完全可观测的 当前状态完全特征化了过程 被告知给agent的state在某种程度上特征化了真个环境展开的过程,环境的...
2019-11-25 10:09:38
756
原创 David Silver强化学习笔记-intro_RL
David Silver深度强化学习笔记-intro_RL 一、关于RL (一)强化学习的特征 强化学习和其他机器学习的不同之处: 没有监督者,只有一个reward标志 反馈有延迟,不是马上得到 时间很重要(序列) 监督学习时将独立同分布的数据进行学习,而强化学习的数据是有序列的。 agent的actions影响着随后接收到的数据。 我们需要应对的是一个动态系统,agent和外...
2019-11-22 12:43:02
351
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人