Finite-MDP

胧月夜い

于 2021-08-24 00:01:57 发布

阅读量152

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/qq_46013251/article/details/119622024

版权

有限马尔可夫决策过程

智能体和环境
目标和奖励
策略和价值函数
- 状态-值函数
- 动作-值函数
贝尔曼方程
最优策略和最优价值函数
参考

智能体和环境

智能体和环境在离散时间序列的每一步交互： $\dots$
借用一下书中的图：
在这里插入图片描述因此，MDP 和智能体一起产生如下的序列：
$S_0, A_0, R_1, S_1, A_1, R_2, S_2, A_2, R_3, \dots$

由马尔可夫的时间齐次性：
$\doteq Pr \{ S_t = s' , R_t = r | S_{t-1} = s, A_{t-1} = a \}$
即 $t$ 时刻的状态和回报仅仅取决于上一时刻所处的状态以及采取的动作

同时，我们有：
$\sum_{s' \in \mathcal{S}} \sum_{r \in \mathcal{R}} p(s', r | s, a) = 1 \ , \quad \forall \ s \in \mathcal{S} \ , \ a \in \mathcal{A}(s)$
也就是说在某一状态采取某一行动后，必定会到达另一状态并收到一份回报

同样的，可以定义：
$\doteq \sum_{r \in \mathcal{R}} p (s', r | s, a)$
表示：从状态 $s$ ，采取动作 $a$ 后到达状态 $s^{'}$ 的概率
用：
$\doteq \mathbb{E} [ R_t | S_{t-1} = s, A_{t-1} = a] = \sum_{r \in \mathcal{R}} r \sum_{s' \in \mathcal{S}} p(s', r | s, a)$
表示：状态 $s$ 采取动作 $a$ 的预期收益
用：
$\doteq \mathbb{E} [ R_t | S_{t-1} = s, A_{t-1} = a, S_t = s'] = \sum_{r \in \mathcal{R}} r \dfrac{p(s', r|s, a)}{p(s'|s, a)}$
表示：从状态 $s$ 采取动作 $a$ 后到达状态 $s^{'}$ 的预期收益

目标和奖励

在每一时间我们的智能体会从环境那收到一份奖励，一般情况下，智能体的目标是最大化长期收益

最简单的情况下，可以将收益 $G_t$ 定义为：
$G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + \cdots + R_{T}$
再引入衰减因子的概念：
$G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots \\[6pt] = R_{t+1} + \gamma G_{t+1} \ , \quad 0 \leqslant \gamma \leqslant 1$
或者：
$G_t \doteq \sum_{k=t+1}^T \gamma^{k-t-1} R_k$
$\gamma$ 的选取决定着智能体对待未来奖励的态度，当 $\gamma$ 趋近于 0 时，我们的智能体会变得短视，当 $\gamma$ 趋近于 1 时，智能体变得更有远见

策略和价值函数

策略是从状态到选择每个可能动作的概率的映射

用 $\pi(a|s)$ 表示状态 $s$ 采取动作 $a$ 的概率

状态-值函数

状态值函数评估智能体在给定状态下的好坏程度

定义从状态 $s$ 开始并且之后一直遵循策略 $\pi$ 的预期收益函数为：
$v_\pi (s) \doteq \mathbb{E}_\pi [ G_t | S_t = s] = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s \right] \ , \quad \forall s \in \mathcal{S}$
称函数 $v_\pi$ 是策略 $\pi$ 的状态-值函数

动作-值函数

动作值函数评估智能体在给定状态下采取给定行动的好坏程度

同样的，定义从 $s$ 开始，采取动作 $a$ ，并且之后一直遵循策略 $\pi$ 的预期收益函数为：
$q_\pi (s, a) \doteq \mathbb{E}_\pi [ G_t | S_t = s, A_t = a] = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s , A_t = a \right]$
称函数 $q_\pi$ 是策略 $\pi$ 的动作-值函数

贝尔曼方程

贝尔曼方程给出了状态价值与其后续状态价值的关系

$v_\pi (s) \doteq \mathbb{E}_\pi [ G_t | S_t = s] \\[5pt] = \mathbb{E}_\pi [R_{t+1} + \gamma G_{t+1} | S_t = s ] \\[5pt] = \mathbb{E}_\pi [R_{t+1} | S_t = s] + \gamma \mathbb{E}_\pi [G_{t+1} | S_t = s]$
注意到第一项：
$\mathbb{E}_\pi [R_{t+1} | S_t = s] = \sum_a \pi (a | s) \sum_{s'} \sum_r p(s' , r | s, a) \ r \\[5pt] = \sum_a \pi (a | s) \ r(s, a)$
用在状态 s 下采取行动 $a$ 的概率乘以状态 $s$ 采取行动 $a$ 获得的预期收益，再对所有的 $a$ 求和，即可得到状态 $s$ 到达下一步的预期收益

第二项：
$\gamma \mathbb{E}_\pi [G_{t+1} | S_t = s] = \sum_a \pi (a | s) \sum_{s'} \sum_r p(s', r | s, a) \ \gamma \mathbb{E}_\pi [ G_{t+1} | S_{t+1} = s' ]$
如果之前的可以看懂，那么这个也不难理解，我们从右往左一个求和一个求和来看：

$\gamma \mathbb{E}_\pi [ G_{t+1} | S_{t+1} = s' ]$ 表示从状态 $s^{'}$ 开始并且之后一直遵循 $\pi$ 的预期折扣收益， $p (s^{'}, r ∣ s, a)$ 表示从状态 $s$ 并采取了动作 $a$ 后，到达状态 $s^{'}$ 并收到回报 $r$ 的概率
首先对 $r$ 求和，就得到了从状态 $s$ 采取动作 $a$ 后到达状态 $s^{'}$ 的概率。再将这两项相乘，得到从状态 $s$ 并采取动作 $a$ 到达 $s^{'}$ 后一直遵循 $\pi$ 的预期折扣收益
接着对 $s^{'}$ 求和，得到从状态 $s$ 采取动作 $a$ 后到达新状态并一直遵循 $\pi$ 的预期折扣收益
最后， $\pi (a|s)$ 表示状态 $s$ 下采取动作 $a$ 的概率，将它与上面得到的项相乘，再对所有的 $a$ 求和，最终结果就是状态 $s$ 进入下一个状态后一直遵循 $\pi$ 的预期折扣收益，即 $\gamma \mathbb{E}_\pi [ G_{t+1} | S_{s} = s ]$

综上，我们有：
$v_\pi (s) = \sum_a \pi (a | s) \sum_{s', r} p(s' , r | s, a) [ r + \gamma v_\pi (s')] \ , \quad \forall s \in \mathcal{S}$
即：
$v_\pi(s) = \mathbb{E}_\pi [ R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]$
同样道理：
$q_\pi(s, a) = \mathbb{E}_\pi [ R_{t+1} + \gamma q_\pi (S_{t+1}, A_{t+1}) | S_t = s, A_t = a]$

最优策略和最优价值函数

定义：
$v_*(s) \doteq \max_\pi v_\pi (s) \ , \quad \forall s \in \mathcal{S} \\[5pt] q_*(s, a) \doteq \max_\pi q_\pi (s, a) \ , \quad \forall s \in \mathcal{S} \ , \ \forall a \in \mathcal{A}$
其中 $q_*(s,a)$ 也可以表示为：
$q_*(s,a) = \mathbb{E} [ R_{t+1} + \gamma v_*(S_{t+1}) | S_t = s, A_t = a]$
满足条件的 $\pi$ 即为最优策略，相应的函数为最优价值函数

显然，最优策略下的状态价值等于该状态的最佳行动带来的预期收益：
$v_*(s) = \max_{a \in \mathcal{A}(s)} q_{\pi_*} (s, a) \\[5pt] = \max_a \mathbb{E}_{\pi_*} [ G_t | S_t = s, A_t = a] \\[5pt] = \max_a \mathbb{E}_{\pi_*} [R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a] \\[5pt] = \max_a \mathbb{E} [R_{t+1} + \gamma v_*(S_{t+1}) | S_t = s, A_t = a] \\[5pt] = \max_{a} \sum_{s' , r} p(s', r|s, a)[r + \gamma v_*(s')]$
同样道理， $q_*$ 的贝尔曼最优方程：
$q_*(s, a) = \mathbb{E} \left[ R_{t+1} + \gamma \max_{a'} q_* (S_{t+1}, a') | S_t = s, A_t = a \right] \\[5pt] = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \max_{a'} q_*(s', a') \right]$

参考

《Reinforcement Learning An Introduction》(second edition)

胧月夜い

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Finite-MDP

有限马尔可夫决策过程智能体和环境目标和奖励策略和价值函数状态-值函数动作-值函数贝尔曼方程最优策略和最优价值函数参考智能体和环境智能体和环境在离散时间序列的每一步交互：t=0,1,2,3,…t = 0, 1, 2, 3, \dotst=0,1,2,3,…借用一下书中的图：因此，MDP 和智能体一起产生如下的序列：S0,A0,R1,S1,A1,R2,S2,A2,R3,…S_0, A_0, R_1, S_1, A_1, R_2, S_2, A_2, R_3, \dotsS0,A0,R1,S1
复制链接

扫一扫