DeepRoute Lab | 深入浅出强化学习(原理篇)

强化学习(Reinforcement Learning,RL),是机器学习的基础范式和方法论之一。本文尝试通过对强化学习核心思想和原理的介绍,让读者能够快速掌握强化学习的基础,从而更好地开启下一阶段的学习。

01

RL是什么?

强化学习(Reinforcement Learning,RL),又被称为激励学习、评价学习或者增强学习,是机器学习的范式和方法论之一;用于描述和解决智能体(agent)在与环境的交互过程中,通过学习策略达成回报最大化或者实现特定目标的问题。

机器学习的三大类别:

  • a. 监督学习

  • b. 无监督学习

  • c. 强化学习

图一 机器学习的三大类别

我们可以通过对狗的训练,来大概体会一下强化学习:

  • 如果狗执行了我们的指令(action),我们就给予骨头等奖励(reward)

  • 如果狗不执行我们的指令(action),我们就给予一些惩罚(负向的reward)

  • 通过一定时间的强化(反复)训练,狗就学会了对指令的执行

图二 狗的训练

对于狗的训练,可以看作一个单步(step)或者单幕(episode)的强化学习过程,而真实场景的RL,应该是多幕(episode)的(或者无限)。

注:强化学习中,每一步的信息可以用 <状态, 动作, 奖励> 的三元组表示,每一幕是指过程终止前的所有步的信息(也被称之为轨迹),这在下面的章节中会详细介绍。

02

马尔可夫性质&马尔可夫决策过程

马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要用强化学习解决一个实际问题,就需要把这个问题抽象为马尔可夫决策过程。马尔可夫决策过程,符合马尔可夫性质(Markov property)。

2.1 马尔可夫性质

什么是马尔可夫性质呢?当一个随机过程,某时刻的状态只取决于上一时刻的状态时,我们就称该随机过程具备马尔可夫性质(Markov property),用公式表示为 

换句话说,在给定现在的状态时,它的未来与过去状态是条件独立的。具备马尔可夫性质的随机过程,又称为马尔可夫过程(Markov  process)。

图三 马尔可夫性质

2.2 马尔可夫决策过程(Markov decision process)

马尔可夫决策过程在马尔可夫性质的基础上增加了一个决策者控制;它提供了一个数学框架,用于结果部分随机部分受决策者控制影响的情况下对决策建模。某时刻的状态取决于上一个时刻的状态和所采取的行动,用公式表示为

图四 马尔可夫决策过程

强化学习问题,可以抽象为马尔可夫决策过程,只是采取的每一个action,除了伴随着状态转移之外,还会得到一个reward。

03

强化学习问题的构成元素

正如上面所说的,强化学习问题,在马尔可夫决策过程的基础上引入状态转移的奖励(reward)。

图五 强化学习的基本元素

基于上图,我们可以把RL的问题或者场景元素分为3大类:

1. 基本元素,可以理解为比较实体的元素

    a.  Agent

    b.  Environment

    c.  Goal(要实现的目标)

2. 主要元素,基于Markov process的抽象,构造求解的条件

    a.  State (包括当前的状态s和下一个时间步的状态 s')

    b.  Action

    c.  Reward

3. 核心元素,是RL问题求解的核心所在

    a.  Value(价值)

    b.  Policy(策略)

那么要用强化学习解决问题,就需要对policy和value有足够的了解。

04

策略(Policy)&价值(Value)

我们先来明确几个术语:

○ (单步)奖励 reward,用r表示。

○   多幕任务累积的reward,或者discounted reward,我们称之为回报(Return),用大写的𝐺来表示。

  • 𝐺可能是取自 Gain or 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值