学习目标
- 初识强化学习
- 马尔可夫过程
- 动态规划
1. 初识强化学习
1.1 强化学习和监督学习的区别
- 强化学习没有定义好的训练数据,监督学习需要输入有标签的数据
- 强化学习训练的核心是在决策过程中尽可能获得多的奖励,监督学习的核心是尽可能预测值与实际值相同
- 强化学习多适用于决策任务,监督学习适用于分类和回归
1.2 强化学习基础概念
智能体就是在强化学习过程中的主角。获取环境中的状态,利用状态输出决策,从环境获得奖励。
奖励就是环境给的反馈,赢了+1分,输了-1分。
序列决策就是一系列的动作:上升,下降
动作空间就是智能体可以做的动作:上升,下降
智能体的组成部分包含策略,价值函数,模型
策略
价值函数对当前状态进行评估,评估智能体进入某个状态后带来的奖励
模型RL智能体&免模型RL智能体
1.3 强化学习练习
- 问:强化学习的基本结构是什么
答:智能体–动作–环境–状态–奖励 - 问:强化学习相对于监督学习为什么训练过程会更加困难?
答:因为强化学习的其中一个特点是延迟奖励,相对于监督学习来说需要更长的时间和更复杂的步骤才能评价结果。 - 问:强化学习的基本特征有哪些?
答:试错探索,从环境中获得延迟的奖励,数据是时间关联的数据,非独立同分布 - 状态和观测有什么关系?
答:状态时对世界的完整描述,观测是对状态的描述。状态相对于观测来说是完整的,不会遗漏。 - 问:强化学习智能体可以分为几类
答:基于价值的和基于策略的 - 问:基于价值的和基于策略的智能体有什么区别
答:基于策略的是静态的,决策方式是根据给定的状态从动作集合中选择一个动作依据。而基于价值的智能体就不需要制定策略,通过价值表格来选取价值最大的动作。基于价值的是不连续的,离散的。
2. 马尔可夫过程
2.1 马尔可夫的性质
未来的状态只取决于现在
2.2 马尔可夫决策
策略定义了在某一个状态应该采取什么样的动作。知道当前状态后,我们可以把当前状态代入策略函
数来得到一个概率
3. 动态规划
3.1 动态规划基础概念
最优子结构
重叠子问题