【RL从入门到放弃】【一】

1、RL和ML和DL之间的关系

2、马尔卡夫

马尔卡夫性:

系统的下一个状态St+1仅与当前状态St相关

定义:状态st 是马尔科夫的,当且仅当P[st+1 |st ]=P[st+1 |s1 ,…,st]。定义中可以看到,当前状态st 其实是蕴含了所有相关的历史信息s1 ,…,st ,一旦当前状态已知,历史信息将会被抛弃。【这样定义马尔卡夫性有什么意义呢?】

马尔科夫性描述的是每个状态的性质,但真正有用的是如何描述一个状态序列。数学中用来描述随机变量序列的学科叫随机过程。所谓随机过程就是指随机变量序列。若随机变量序列中的每个状态都是马尔科夫的,则称此随机过程为马尔科夫随机过程。

马尔卡夫过程:

定义:马尔科夫过程是一个二元(S,P),且满足,S代表有限状态集合,P是状态转移概率,状态转移概率矩阵为

对于这个例子,假设下面这个表格填写上数字,这个table就是马尔卡夫过程。

等价于下面这个图:

马尔卡夫链:一条状态序列就被称为一条马尔卡夫链。

马尔卡夫决策:

在马尔卡夫过程中加上reward和action就是马尔卡夫决策,简称MDP。马尔卡夫决策过程由元祖(S,A,P,R,γ)也就是元祖里面多了几个元素。

S:有限状态集合

A:有限动作集合

P:状态转移概率 :包含动作

马尔卡夫过程的p

R:回报函数

γ: 折扣因子,是在计算累计期望回报的时候使用的一个参数

策略:

策略是动作到状态的映射,策略常⽤符号π表⽰,它是指给定状态s时,动作集上的一个分布

强化学习的策略往往是随机策略。采用随机策略的好处是可以将探索耦合到采样的过程中。

给定策略是指在一个state选择每个action的概率是确定的,强化学习的策略一般包含【本博客后面的内容】

2.1的公式属于是随机策略,确定性策略的表示如下:

a=π(s)

累积回报

累积回报是一个序列通过如下公式计算的累积回报值。

给定策略【确定的或者是随机的】之后,累积回报具有多个值,而且现在策略经常是随机的,所以累积回报也是随机的。如果我们要评价S1的价值

使用累积回报Gt是无法评估的,但是Gt的期望确是固定的。

值函数

值函数分为状态值函数+状态行为值函数

状态值函数

当智能体采用策略π时,累积回报服从一个分布,累积回报在状态s处的期望值定义为状态-值函数

注意:状态值函数是与策略π相对应的,这是因为策略π决定了累积回报G的状态分布

状态值函数为状态行为值函数的和

状态-行为值函数为当前状态的reward+r*sum(上一个状态:(状态转移概率×状态值函数))

带入得到公式:

状态行为值函数

合并得到:

状态值函数和状态行为值函数的贝尔曼方程

状态值函数的贝尔曼方程

最后一个等式证明【没看懂】

这里需要注意的是对哪些变量求期望。

状态行为值函数的贝尔曼方程

值函数和最优策略

从最开始引入值函数的概念入手,值函数是用来评估S1的价值,假设我们每一点都选择最具有价值的action来走的话,那最后的就是最优的policy

最优状态值函数υ* (s) 为在所有策略中值最大的值函数

最优状态-为值函数q* sa)为在所有策略中最的状-为值函数

最优状态值函数和最优状态-动值函数的⻉尔曼最优⽅程:

若已知最优状态-动作值函数,最优策略可通过直接最大q* sa)来决定

3、RL和MDP之间的关系

应该说MDP是最简单的强化学习的数学模型,因为他本身做了很多限制

  1. 面对的state,数量是有限的
  2. 采取的action,数量也是有限的
  3. 对于特定的state,当下的reward是明确的
  4. 在某一时刻,采取行动atst切换至st+1st+1有多种可能,

就是指st+1不确定state转换概率状态转换只依赖当前状态和先前的状态无关

对马尔卡夫过程的各种限制,不断放松,研究相应的算法,就是RL的目标

Eg

  1. st数量有限,但是十分巨大,如何降低DP的运算成本
  2. st数量无线,DP失效,如何改进算法
  3. st不能被完全观察,只能被部分观察到,如何改进算法
  4. st完全不能被观察,只能通过其他现象推测其潜在的状态,如何改进算法
  5. st的数量是无限的,且不是离散的,是连续的值

4、RL学习框架

5、RL常用的随机策略

贪婪策略

贪婪策略是个确定性策略,即只有在使得动作值【动作值函数或者称他为行为值函数】函数q* sa动作处取概率1,选其他动作的概率为0

ε-greedy策略

后面的参数和这样的意义应该是一样的,因为这里都是动作值函数

ε-greedy策略是强化学习最基本最常随机策略。其含义是选取使得动作值函数最动作的概率为

其余为:

ε-greedy平衡了利exploitation)和探索(exploration),其中选取动作值函数最的部分为利,其他优动作仍有概率为探索部分。

高斯策略

一般高斯策略可以写成πθ=μθ+ϵ,ϵ∼N(0,σ2)πθ=μθ+ϵ,ϵ∼N(0,σ2)。其中μθμθ为确定性部分,ϵϵ为零均值的高斯随机噪声。高斯策略也平衡了利用和探索,其中利用由确定性部分完成,探索有ϵϵ完成。高斯策略在连续系统的强化学习中应用广泛。

玻尔兹曼分布

对于动作空间是离散的或者动作空间并不大的情况,可采用玻尔兹曼分布作为随机策略,即 

其中Q(s,a,θ)Q(s,a,θ)为动作值函数,该策略的含义是动作值函数大的动作被选中的概率大,动作值函数小的动作被选中的概率小

 

6、RL算法的形象化描述

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值