3、有限马尔可夫决策过程

最新推荐文章于 2024-01-17 14:36:06 发布

Jacob Jiang

最新推荐文章于 2024-01-17 14:36:06 发布

阅读量804

点赞数 1

分类专栏： RL 文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_42104932/article/details/105362189

版权

RL 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

文章目录

1、Agent—Environment Interface

RL问题是指从互动中学习以到达目标的问题的简单框架。

学习者和决策者都被称为代理人（agent）。它与之交互的东西，包括了主体之外的一切，叫做环境（environment）。它们不断交互，agent选择动作，environment响应这些动作并向agent呈现新的状态，同时环境也会产生奖励，这是一种特殊的数值，随时间的推移，agent试图使其最大化。
the agent-environment interaction

agent和environment在离散时间步长（t=0,1,2,3,…）的每一个序列上进行交互。

在每个时间步t上，

agent从环境中获得当前的状态： ${S_t}$ ， ${S_t} \in S$ ；
agent根据当前的状态 ${S_t}$ ，选择一个动作 ${A_t}$ ， ${A_t} \in A({S_t})$ ，其中 $A({S_t})$ 是状态 ${S_t}$ 中可用的动作集合；
一个时间步之后，agent从environment中获得一个数值奖励 ${R_{t + 1}}$ ， ${R_{t + 1}} \in R$ ，且找到一个新的状态 ${S_{t + 1}}$ ；

agent：

实现状态 —> 动作的概率的映射，该映射被称为 agent 的 policy （策略），用 $\pi_t$ 表示： $\pi_t(a|s)$ 。
目标：最大化它在长期内获得的总回报，即获得的标量信号（reward）的累积的期望值的最大化。

2、Returns

        定义累积回报：
在这里插入图片描述
其中，T 是最后一个时间步长。
        当 T 有限时，这样的 task 称为 episodic tasks
        当 T 无限时，这样的 task 称为 continuing tasks
        考虑 discounting，对于 continuing tasks 的累积回报公式为：
在这里插入图片描述
        其中， $\gamma\in[0，1]$ 。

3、episodic tasks 和 continuing tasks 的统一表示

将 episodic tasks 的终止状态（由下图中黑色正方形表示）定义为一种特殊的吸收状态，如下所示，到达终止状态之后不断循环，后续的所有奖励全部为0。这样就能把 episodic tasks 和 continuing tasks 的公式统一成一个公式：
在这里插入图片描述
对于episodic tasks， $\gamma=1$ ；对于continuing tasks， $T=\propto$ 。

4、The Markov Property

在 RL 框架中，agent 根据来自环境的信号（称为环境的状态）作出决策。这个状态信号能够简洁的概括过去的感觉，同时又能保留所有相关信息。我们把这样的能够成功保留所有信息的状态信号，称为 Markov，或具有 Markov Property。

定义 RL 问题的 Markov Property：
         假设：状态和奖励值的数量有限
         考虑在 t 时刻采取什么样的动作会在 t+1 时刻产生什么样的结果。一般这种反应的可能取决于之前发生的所有事情，此时：
在这里插入图片描述
         如果状态信号具有 Markov Property，那么环境在 t+1 时刻的响应只取决于 t 时刻的状态和动作，这时，

        在这种情况下，环境和任务作为一个整体也被认为具有 Markov Property。如果状态信号是 Non-Markov，在 RL 中也可以看成是对 Markov 状态的近似。

5、Markov Decision Processes

满足 Markov Property 的强化学习任务称为 Markov Decision Processes（MDP）。如果状态空间和动作空间都有限，这样的RL任务是 finite MDP。
给定任意状态 s 和动作 a，下一个状态 $s^{'}$ 和奖励 r 的概率表示为：
在这里插入图片描述
由此，可以计算 状态-动作 对的期望回报：

状态转移概率：

状态-动作-下一个状态 的期望回报：
在这里插入图片描述

6、Value Function

使用策略π，状态值函数——state-value function
在这里插入图片描述
动作值函数——action-value function

迭代状态值函数——iterative state-value function

7、Optimal Value Functions

最优状态值函数——optimal state-value function
在这里插入图片描述 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200414232310448.png
最优动作值函数——optimal action-value function

最优的动作值等于最优的状态值下的最大期望：

贝尔曼最优方程：