1. 什么是强化学习
强化学习是机器学习的一种,它以智能体(或强化学习算法)为表现形式,智能体通过与环境的反复交互,即:依据环境的当前状态 S t S_t St选择行为 A t A_t At(有的技术资料称为动作,本笔记一律采用行为)作用于环境,使其状态转移到 S t + 1 S_{t+1} St+1,并收到来自环境的立即回报 R t + 1 R_{t+1} Rt+1(有的技术资料称为奖励,本比较一律采用回报),依据 S t + 1 S_{t+1} St+1选取动作 A t + 1 A_{t+1} At+1…。智能体从反复交互的数据中学到能使其从环境中获得的累积回报最大的策略(根据状态选择行为的决策)。强化学习的原理图示意图如下图所示。
这里的回报,又可以称为奖励。
这里的行为,又可以称为动作。
这里的智能体,又称为强化学习系统或算法
t
t
t–采样时刻,表示某次采样(观测)的时刻,但不对应具体的时间,因此,不要理解为第几秒(毫秒、纳秒)等具体的时间单位
t
+
1
t+1
t+1–表示采样时刻
t
t
t的下一次采样(观测),这里的1应理解为t的下一次,而非下一秒(毫秒等)!!!
A
t
A_t
At–智能体t时刻采取的行为
S
t
S_t
St–智能体t时刻观测到的环境的状态
R
t
R_t
Rt–环境从上一个状态转移到
S
t
S_t
St获得的立即(即时)回报
S
t
+
1
S_{t+1}
St+1–环境在t+1时刻的状态
R
t
+
1
R_{t+1}
Rt+1–采取行为
A
t
A_t
At后,状态由
S
t
S_t
St转移到
S
t
+
1
后
S_{t+1}后
St+1后获得的立即(即时)回报
2 强化学习与其他机器学习的异同
2.1 机器学习三大类别
{ 有监督学习 无监督学习 强化学习 \begin{cases} 有监督学习 \\ 无监督学习 \\ 强化学习 \end{cases} ⎩ ⎨ ⎧有监督学习无监督学习强化学习
2.2 监督学习与强化学习的相同点
(1) 都是从观测数据中学习;
(2) 都以学到最优的模型为目标;
2.3 监督学习与强化学习的不同点
(1)用于训练的观测数据获取的方式不同:监督学习所使用的观测数据通常是学习前就获得的,而强化学习所使用的观测数据是智能体与环境的交互中获得的。
(2) 观测数据分布假设不同:监督学习假定用于训练的观测数据与预测时的观测数据满足独立同分布假设,而强化学习则没有此要求。
(3)目标函数不同:监督学习所使用的目标函数为预测误差函数,而强化学习所使用的目标函数为累积回报的期望。
(4)学到的模型不同:监督学习学到的模型在使用时,一步到位,即:给定输入,产生的输出就是所需要的结果;而强化学习学到的模型是一个策略函数,多步到位,即:给定环境状态
→
\rightarrow
→ 根据策略函数求取该状态下的最优动作
→
\rightarrow
→ 环境转移到新的状态
→
\rightarrow
→ 根据策略函数求取该状态下的最优动作
⋯
\cdots
⋯
(4)适用场景不同:监督学习主要用于预测或分类,而强化学习用于多步决策,监督学习适用的环境是确定的、结构化的,而强化学习在不确定性的环境中具有较好 的适应能力。