- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 Reinforcement Learning:An Introduction Chapter 1 Introduction
Chapter 1: Introduction人类与环境进行互动,学习环境如何响应我们的行为,并试图通过自身行为影响将来发生的事,这就是一种交互式的学习方式,是人类获取知识的主要来源,同时也是几乎所有学习和智能化理论的基本思想。强化学习正是一种从交互中学习的计算方法,它更侧重于从交互中进行目标导向的学习方式,而不是其他的机器学习方式。1.1 Reinforcement Learning强化...
2019-03-22 09:58:19 1174
原创 David Silver强化学习课程 Lecture 2: Markov Decision Processes
文章目录AbstractMarkov PropertyMarkov ChainExample:Student Markov ChainMarkov Reward ProcessExample: Student Markov Reward ProcessReturn(回报)Value functionExample: Student MRP ReturnsBellman EquationExampl...
2019-03-22 09:58:07 591
原创 Reinforcement Learning:An Introduction Chapter 2 Multi-armed Bandits
文章目录Abstract2.1 k-摇臂赌博机Abstract强化学习使用训练信息来评估所采取的动作,而非使用正确的动作来指导动作的选择。评估性反馈完全依赖于所采取的动作,而指示性反馈独立于所采取的动作。本章讨论的是在单个状态下学习如何采取动作,即非关联性(nonassociative)。2.1 k-摇臂赌博机问题描述:k-摇臂赌博机可以看做k个老虎机,每个老虎机的奖赏都是从某个固定...
2019-03-22 09:58:00 654 2
原创 Reinforcement Learning:An Introduction & David Silver & CS294 强化学习课程 学习笔记
笔记Chapter 1 Introduction;Chapter 2 Multi-armed Bandits;Chapter 3 Finite Markov Decision Processes;由于时间有限,第三章开始的笔记链接到的是References中的文章。以后有时间,有新的感悟或补充,会写出来以供交流。References[1] Reinforcement Learning:...
2019-03-22 09:57:48 319
mfc绘制贝塞尔曲线曲面
2016-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人