强化学习(Reinforcement Learning,RL),是机器学习的基础范式和方法论之一。本文尝试通过对强化学习核心思想和原理的介绍,让读者能够快速掌握强化学习的基础,从而更好地开启下一阶段的学习。
01
RL是什么?
强化学习(Reinforcement Learning,RL),又被称为激励学习、评价学习或者增强学习,是机器学习的范式和方法论之一;用于描述和解决智能体(agent)在与环境的交互过程中,通过学习策略达成回报最大化或者实现特定目标的问题。
机器学习的三大类别:
-
a. 监督学习
-
b. 无监督学习
-
c. 强化学习
图一 机器学习的三大类别
我们可以通过对狗的训练,来大概体会一下强化学习:
-
如果狗执行了我们的指令(action),我们就给予骨头等奖励(reward)
-
如果狗不执行我们的指令(action),我们就给予一些惩罚(负向的reward)
-
通过一定时间的强化(反复)训练,狗就学会了对指令的执行
图二 狗的训练
对于狗的训练,可以看作一个单步(step)或者单幕(episode)的强化学习过程,而真实场景的RL,应该是多幕(episode)的(或者无限)。
注:强化学习中,每一步的信息可以用 <状态, 动作, 奖励> 的三元组表示,每一幕是指过程终止前的所有步的信息(也被称之为轨迹),这在下面的章节中会详细介绍。
02
马尔可夫性质&马尔可夫决策过程
马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要用强化学习解决一个实际问题,就需要把这个问题抽象为马尔可夫决策过程。马尔可夫决策过程,符合马尔可夫性质(Markov property)。
2.1 马尔可夫性质
什么是马尔可夫性质呢?当一个随机过程,某时刻的状态只取决于上一时刻的状态时,我们就称该随机过程具备马尔可夫性质(Markov property),用公式表示为
换句话说,在给定现在的状态时,它的未来与过去状态是条件独立的。具备马尔可夫性质的随机过程,又称为马尔可夫过程(Markov process)。
图三 马尔可夫性质
2.2 马尔可夫决策过程(Markov decision process)
马尔可夫决策过程在马尔可夫性质的基础上增加了一个决策者控制;它提供了一个数学框架,用于结果部分随机部分受决策者控制影响的情况下对决策建模。某时刻的状态取决于上一个时刻的状态和所采取的行动,用公式表示为
图四 马尔可夫决策过程
强化学习问题,可以抽象为马尔可夫决策过程,只是采取的每一个action,除了伴随着状态转移之外,还会得到一个reward。
03
强化学习问题的构成元素
正如上面所说的,强化学习问题,在马尔可夫决策过程的基础上引入状态转移的奖励(reward)。
图五 强化学习的基本元素
基于上图,我们可以把RL的问题或者场景元素分为3大类:
1. 基本元素,可以理解为比较实体的元素
a. Agent
b. Environment
c. Goal(要实现的目标)
2. 主要元素,基于Markov process的抽象,构造求解的条件
a. State (包括当前的状态s和下一个时间步的状态 s')
b. Action
c. Reward
3. 核心元素,是RL问题求解的核心所在
a. Value(价值)
b. Policy(策略)
那么要用强化学习解决问题,就需要对policy和value有足够的了解。
04
策略(Policy)&价值(Value)
我们先来明确几个术语:
○ (单步)奖励 reward,用r表示。
○ 多幕任务累积的reward,或者discounted reward,我们称之为回报(Return),用大写的𝐺来表示。
-
𝐺可能是取自 Gain or