强化学习(一)---马尔科夫决策过程

先大致了解工智能,机器学习,深度学习之间的联系与区别

主学习网址

莫烦python网址

David Silver强化学习公开课中文讲解及实践

技能准备

在这里插入图片描述

强化学习(Reinforcement Learning,RL)概述

强化学习的任务就是找到一个 最优的策略Policy π() 从而使Reward最多

在运行强化学习算法之前,首先需要得到一系列的状态S,动作A和反馈R,这个过程通常是agent随机得到的,这就是一系列的样本Sample。
强化学习的算法就是需要根据这些样本来改进Policy,从而使得得到的样本中的Reward更好。由于这种让Reward越来越好的特性,所以这种算法就叫做强化学习RL

1.MP(Markov Process)或马尔科夫链(Markov Chain)

马尔科夫过程是一个无记忆的随机过程,可以用一个元组<S,P>表示,其中S是有限数量的状态集,P是状态转移概率矩阵
在这里插入图片描述

2.MRP

马尔科夫奖励过程在马尔科夫过程的基础上增加了奖励R和衰减系数γ:使用<S,P,R,γ>表示
R是一个reward,它表示从一个状态s转移到另一个状态s’时能够获得的奖励的期望,也就是上图的Rs的公式。(只要离开此状态就可获得即时奖励reward
γ 是一个折扣因子,一般取值在 [0,1];用来区分当前回报和未来回报的重要性,一般会加在未来的回报前,减小未来回报的权重。

  • γ 接近0,则表明趋向于“近视”性评估
  • γ 接近1则表明偏重考虑远期的利益
    在这里插入图片描述

2.1 收获Return:Gt

Gt是某个具体的episode所获得的回报return,即 收获是针对一个马尔科夫链中的 某一个状态来说的,当然我们的目标是想找到一个路径使得Gt的值最大,也就是累积奖赏最大
在这里插入图片描述
在这里插入图片描述

2.2 价值函数 Value Function

为了学习最优策略 π,我们利用价值函数。价值函数给出了某一状态或某一行为的 长期价值

定义:一个马尔科夫奖励过程中某一状态的价值函数为从该状态开始的马尔可夫链收获的 期望

  • Q:为什么会有期望符号,因为Gt我们在上面说过,从t时刻到终止状态的马尔科夫链不止一条每一条都有对应的概率和Return收益,所以对应的概率乘以相应的收益自然就会有期望符号

在强化学习中有两种类型的价值函数:

  • 状态值函数(state value function),用V(s)表示,来描述 针对状态 的价值
  • 行动值函数,用Q(s,a)表示,描述某一状态下执行某一行为**的价值

状态值函数在遵循策略时描述一个状态的值。当从状态的行为以我们的策略π开始时,这就是预期的返还
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如果要算出期望的话,我们需要把所有的可能的路径都列举出来进行计算。但是穷举所有的路径在这个例子可能可以,但是对于复杂的问题,穷举基本上是不可能的,所以后面会说到值函数的估计,因为很难把路径都遍历了

3. 贝尔曼方程 Bellman Equation

在这里插入图片描述
在这里插入图片描述

3.1 贝尔曼矩阵形式

在这里插入图片描述

3.2 Bellman Example:V(s)

在这里插入图片描述

4. MDP

马尔科夫决策过程是在马尔科夫奖励过程的基础上加了decisions过程,其实是多了一个action集合
在马尔科夫决策过程中,与马尔科夫奖励过程不同的就是,这里的P和R都与具体的行为a对应,而不像马尔科夫奖励过程那样仅对应于某个状态,A表示的是 有限的行为 的集合
在这里插入图片描述

Example

下图给出了一个可能的MDP的状态转化图。图中 红色的文字表示的是采取的行为,而不是先前的状态名。对比之前的学生MRP示例可以发现,即时奖励与行为对应了同一个状态下采取不同的行为得到的即时奖励是不一样的。由于引入了Action,容易与状态名混淆,因此此图没有给出各状态的名称;此图还把Pass和Sleep状态合并成一个终止状态;另外当选择”去查阅文献”这个动作时,主动进入了一个临时状态(图中用黑色小实点表示),随后 被动 的被环境按照其动力学分配到另外三个状态,也就是说 此时Agent没有选择权决定去哪一个状态
在这里插入图片描述
在这里插入图片描述

5. 策略 Policy

在这里插入图片描述
一个完整的策略Policy,在多个状态的下的表示就是一个矩阵,行为状态的个数,列为该状态下可能发生的动作,假如有5个状态,每个状态可能的动作都是2个,完整的policy可以表示如下:
在这里插入图片描述
注意

  • 一个策略完整定义了个体的行为方式,也就是说定义了个体在各个状态下的各种 **==可能的行为方式以及其概率的大小
  • Policy仅和当前的状态有关,与历史信息无关;
  • 某一确定的Policy是 静态的,与时间无关;但是 个体可以随着时间更新策略
    在这里插入图片描述
    比如说还是上面那个例子图:
    假如我们求在策略 π 下,则 s1状态转移到s2状态的概率是多少? 策略 π 如下:
    在这里插入图片描述
    在这里插入图片描述
    这就解释了上面的公式,这里 需要注意的就是一个状态经过了Action之后可以由不同状态转移到其它任意不同状态,比如无人机收到遥控垂直向上的动作,那么它也不一定100%垂直朝上,可能来风了,有10%的可能性超南,70%的可能性垂直向上这种,所以 采取了任何动作,后面都会有p(s1->s2)

奖励函数表示如下:
在这里插入图片描述
解释如下:当前状态s下执行某一指定策略得到的即时奖励是该策略下所有可能行为得到的奖励与该行为发生的概率的乘积的和,类似于一种期望的思想

总结:

  • 策略在MDP中的作用相当于agent可以在某一个状态时做出选择,进而有形成各种马尔科夫过程的可能。
  • 基于策略产生的每一个马尔科夫过程是一个马尔科夫奖励过程,各过程之间的差别是不同的选择产生了不同的后续状态以及对应的不同的奖励
    在这里插入图片描述

5.1 基于策略π的价值函数

在马尔科夫决策过程中,价值函数也就变为了基于策略π的价值函数,表示从状态s开始,遵循当前策略时所获得的收获的期望;或者说在执行当前策略π时,衡量个体处在状态s时的价值大小
在这里插入图片描述
注意策略是静态的、关于整体的概念,不随状态改变而改变;变化的是在某一个状态时,依据策略可能产生的具体行为,因为具体的行为是有一定的概率的,策略就是用来描述各个不同状态下执行各个不同行为的概率

定义 qπ(s,a)为行为价值函数,表示在执行策略π时,对当前状态s执行某一具体行为a所能的到的收获的期望;或者说在遵循当前策略π时,衡量对当前状态执行行为a的价值大小
行为价值函数是来评价在特定状态的条件下,某个action的好坏
在这里插入图片描述

6 Bellman Expectation Equation(vπ(s),qπ(s,a)关系)

MDP下的状态价值函数和行为价值函数与MRP下的价值函数类似,可以改用下一时刻状态价值函数或行为价值函数来表达,具体如下
在这里插入图片描述
在这里插入图片描述
可以看出,在遵循策略π时,状态s的价值体现为在该状态下遵循某一策略而采取所有可能行为的价值行为发生概率的乘积求和

同理我们可以得到:一个行为价值函数也可以表示成状态价值函数的形式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Example:Bellman Expectation Equation in Student MDP

在这里插入图片描述
在这里插入图片描述
解释一下上面的7.4是如何得来的?是由下面公式得来(其中γ为1)
在这里插入图片描述

7 最优价值函数和最优策略

Optimal Value Function(最优价值函数)

最优状态价值函数v*(s) 指的是在从所有策略产生的状态价值函数中,选取使状态s价值最大的函数,公式如下:
在这里插入图片描述
在这里插入图片描述
最优价值函数确定了MDP的最优可能表现,当我们知道了最优价值函数,也就知道了 每个状态的最优价值,那么此时该MDP的所有量我们已经知道,也就认为该MDP获得了解决
在这里插入图片描述

Example: Optimal Value Function for Student MDP

学生MDP问题的 最优状态价值 如下(红色的数字代表了 每个状态最优 的value function):
在这里插入图片描述
在这里插入图片描述

Optimal Policy(最优策略)

在这里插入图片描述
定理对于任何MDP,下面几点成立

  • 存在一个最优策略,好于(至少相等)任何其他策略
  • 所有的最优策略下都有 相同的最优价值函数
  • 所有的最优策略下都具有 相同的行为价值函数

8 Finding an Optimal Policy (max(q*(s,a)))

可以通过 最大化最优行为价值函数来找到最优策略
在这里插入图片描述
对于任何MDP问题,总存在一个确定性的最优策略;
同时如果我们知道最优行为价值函数,则表明我们找到了最优策略
从上述公式可以看出,最优策略是可以从最优行为价值函数推出
在这里插入图片描述

9 Bellman Optimal Equation

针对 v*一个状态的最优价值等于从该状态出发 采取的 所有行为产生的行为价值中最大的那个行为价值
在这里插入图片描述
针对 q*,在某个状态s下,**采取某个行为的最优价值**由2部分组成

  • 一部分是离开状态 s 的即刻奖励
  • 另一部分则是所有能到达的状态 s’ 的最优状态价值按出现概率求和
  • 在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

Example:Bellman最优方程学生MDP示例

在这里插入图片描述
其中解释一下6是如何求得?
它是根据如下公式:
在这里插入图片描述
在这里插入图片描述

传送门

简介

强化学习(一):简介
强化学习笔记 - 00 - 术语和数学符号

Markov Decision Process

马尔科夫决策过程
Deep Learning专栏–强化学习之MDP、Bellman方程

马尔科夫决策过程系列—David Silver视频学习笔记

马尔科夫决策过程之Markov Processes(马尔科夫过程)
马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程)
马尔科夫决策过程之Bellman Equation(贝尔曼方程)
马尔科夫决策过程之Markov Decision Process(马尔科夫决策过程)
马尔科夫决策过程之最优价值函数与最优策略

Bellman方程和价值函数

强化学习系列(下):贝尔曼方程和价值函数
强化学习(2):Bellman方程

Policy Gradient

浅谈Policy Gradient

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值