3、有限马尔可夫决策过程


1、Agent—Environment Interface

        RL问题是指从互动中学习以到达目标的问题的简单框架。

        学习者和决策者都被称为代理人(agent)。它与之交互的东西,包括了主体之外的一切,叫做环境(environment)。它们不断交互,agent选择动作,environment响应这些动作并向agent呈现新的状态,同时环境也会产生奖励,这是一种特殊的数值,随时间的推移,agent试图使其最大化。
 the agent-environment interaction

agent和environment在离散时间步长(t=0,1,2,3,…)的每一个序列上进行交互。
        
在每个时间步t上,

  1. agent从环境中获得当前的状态: S t {S_t} St S t ∈ S {S_t} \in S StS
  2. agent根据当前的状态 S t {S_t} St,选择一个动作 A t {A_t} At A t ∈ A ( S t ) {A_t} \in A({S_t}) AtA(St),其中 A ( S t ) A({S_t}) A(St)是状态 S t {S_t} St中可用的动作集合;
  3. 一个时间步之后,agent从environment中获得一个数值奖励 R t + 1 {R_{t + 1}} Rt+1 R t + 1 ∈ R {R_{t + 1}} \in R Rt+1R,且找到一个新的状态 S t + 1 {S_{t + 1}} St+1

agent:

  1. 实现状态 —> 动作的概率的映射,该映射被称为 agent 的 policy (策略),用 π t \pi_t πt 表示: π t ( a ∣ s ) \pi_t(a|s) πt(as)
  2. 目标:最大化它在长期内获得的总回报,即获得的标量信号(reward)的累积的期望值的最大化。

 

2、Returns

        定义累积回报:
在这里插入图片描述
其中,T 是最后一个时间步长。
        当 T 有限时,这样的 task 称为 episodic tasks
        当 T 无限时,这样的 task 称为 continuing tasks
        考虑 discounting,对于 continuing tasks 的累积回报公式为:
在这里插入图片描述
        其中, γ ∈ [ 0 , 1 ] \gamma\in[0,1] γ[01]
 


3、episodic tasks 和 continuing tasks 的统一表示

        将 episodic tasks 的终止状态(由下图中黑色正方形表示)定义为一种特殊的吸收状态,如下所示,到达终止状态之后不断循环,后续的所有奖励全部为0。这样就能把 episodic tasks 和 continuing tasks 的公式统一成一个公式:
在这里插入图片描述
对于episodic tasks, γ = 1 \gamma=1 γ=1 ;对于continuing tasks, T = ∝ T=\propto T=
在这里插入图片描述
 


4、The Markov Property

        在 RL 框架中,agent 根据来自环境的信号(称为环境的状态)作出决策。这个状态信号能够简洁的概括过去的感觉,同时又能保留所有相关信息。我们把这样的能够成功保留所有信息的状态信号,称为 Markov,或具有 Markov Property。

定义 RL 问题的 Markov Property:
         假设:状态和奖励值的数量有限
         考虑在 t 时刻采取什么样的动作会在 t+1 时刻产生什么样的结果。一般这种反应的可能取决于之前发生的所有事情,此时:
在这里插入图片描述
         如果状态信号具有 Markov Property,那么环境在 t+1 时刻的响应只取决于 t 时刻的状态和动作,这时,
在这里插入图片描述
        在这种情况下,环境和任务作为一个整体也被认为具有 Markov Property。如果状态信号是 Non-Markov,在 RL 中也可以看成是对 Markov 状态的近似。
 


5、Markov Decision Processes

        满足 Markov Property 的强化学习任务称为 Markov Decision Processes(MDP)。如果状态空间和动作空间都有限,这样的RL任务是 finite MDP。
        给定任意状态 s 和动作 a,下一个状态 s ′ s' s 和奖励 r 的概率表示为:
在这里插入图片描述
由此,可以计算 状态-动作 对的期望回报
在这里插入图片描述
状态转移概率

状态-动作-下一个状态期望回报
在这里插入图片描述
 


6、Value Function

使用策略π,状态值函数——state-value function
在这里插入图片描述
动作值函数——action-value function
在这里插入图片描述
迭代状态值函数——iterative state-value function
在这里插入图片描述
 


7、Optimal Value Functions

最优状态值函数——optimal state-value function
在这里插入图片描述![在这里插入图片描述](https://img-blog.csdnimg.cn/20200414232310448.png
最优动作值函数——optimal action-value function
在这里插入图片描述![在这里插入图片描述](https://img-blog.csdnimg.cn/20200414232449403.png
最优的动作值等于最优的状态值下的最大期望:
在这里插入图片描述
贝尔曼最优方程:
在这里插入图片描述
在这里插入图片描述


求解最优方程时,计算量大,占用内存也比较大。

对于有限、小的状态集:可用数组/表来近似最优策略
对于很多的状态集:可用参数化的函数来近似最优策略

在RL中,一般很难或不能找到最优解,但是可以用某种方法来近似。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值