我是跟着David Silver 的视频和PPT(链接:http://davidsilver.uk/teaching/)来学习强化学习的,虽然很多人已经写了很多这方面的笔记了,但是我还是觉得应该学一点,记一点,因为我认为写是一个理清思路、加深理解的好方法。希望能坚持学下去,写下去。笔记主要是翻译并记录PPT中的内容,再加上一些个人的理解。
今天记录的是David课程中的第二讲。我硕士阶段主要是研究网络测量,一个比较小众的方向。进入博士阶段后,一直在思考如何使用强化学习来解决网络测量中的一些问题,以前遇到问题了就喜欢闷头干,往往是做了好长一段时间,才发现自己是在瞎碰。没有好的理论指导,科研效率是肉眼可见的低。所以,现在下定决心,一定要打好理论基础,脚踏实地。
David 强化学习课程第二讲:马尔科夫决策过程
马尔科夫决策过程(Markov decision process, MDP)可以说是强化学习的最基本条件了,判断一个问题能否用强化学习来解决,最直观的方法就是先看它是否是MDP的。那么,究竟什么是马尔科夫决策过程呢,我们一起来跟着David的课程做个了结吧。
我认为这一讲主要是要掌握一些基本概念,以及他们之间的关系,主要包括:
- 马尔科夫过程(Markov Processes):
- 马尔科夫属性
- 状态转移矩阵
- 什么是马尔科夫过程
- 马尔科夫奖励过程(Markov Reward Processes)
- 奖励(Reward),衰减因子
- 回报(Return)
- 价值函数(Value Function)
- 马尔科夫决策过程(Markov Decision Processes)
- 状态价值函数
- 动作价值函数
- 二者的关系
- 优化方法
- 价值迭代
- 策略迭代
- Q-learning
- Sarsa
Introduction
- MDP为强化学习提供了环境
- 这个环境是完全可观察的:当前的状态可以完全的描述当前这一过程
- 几乎所有的强化学习问题都可以转化为MDP问题
- 连续的MDPs来解决优化控制问题
- 部分可观察问题可以转化为MDPs
- 老虎机问题是只有一个状态的MDP
一、马尔科夫过程(Markov Processes)
(一)马尔科夫属性(Markov Property)
当前状态已知的情况下,下一状态是与过去状态完全独立的。