强化学习中的马尔可夫决策过程

最新推荐文章于 2024-05-13 21:15:29 发布

greent2008

最新推荐文章于 2024-05-13 21:15:29 发布

阅读量1.3w

点赞数 5

分类专栏：机器学习数学文章标签：数学

本文链接：https://blog.csdn.net/greent2008/article/details/53995974

版权

机器学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

数学

1 篇文章 0 订阅

订阅专栏

前言

我在学习Playing Atari with Deep Reinforcement Learning这篇论文时，文章中引用到了马尔可夫决策过程的相关概念，为此特意学习了马尔可夫决策过程的相关知识。

马尔可夫过程(MP)的基本概念

状态遵循马尔可夫是指

P [S t + 1 | S t] = P [S t + 1 | S t, \dots, S 1]

$\mathbb{P}[S_{t+1}|S_{t}]=\mathbb{P}[S_{t+1}|S_{t},\cdots,S_1]$
既未来与过去无关只与现在有关

⟨S,P⟩ $\langle S,P \rangle$ 是马尔可夫过程是指S为有限状态集合并且遵循马尔可夫，P是状态转移概率矩阵

P s, s' = P [S t + 1 = s' | S t = s]

$P_{s,s'}=\mathbb{P}[S_{t+1}=s'|S_{t}=s]$

马尔可夫奖赏过程(MRP)的基本概念

$\langle S,P,R,\gamma \rangle$ 是马尔可夫奖赏过程是指S为有限状态集合，P为状态转移矩阵, $R：S \longrightarrow \mathbb{R}$ 为奖赏函数 $R_s=\mathbb{E}[R_{t+1}|S_t=s]$ ， $\gamma$ 是折扣率

MRP的价值函数

$R_t$ 定义为从状态 $s_{t-1}$ 到达状态 $s_t$ 所得到的奖励，那么时刻0所能得到的回报可以写为

G 0 = R 1 + γ R 2 + γ 2 R 3 + \dots

$G_0 = R_1 + \gamma R_2 + \gamma^2 R_3 + \cdots$
t时刻在某一状态下的回报可以如下式子表示：

G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + \dots

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + \cdots$

因为从某一状态到达另一个状态是根据一定的概率，所以真实的 $G_t$ 的可能有很多种，所以定义在某一状态下的价值函数

v (s) = E [G t | S t = s]

$v(s) = \mathbb{E}[G_t | S_t=s]$
其中

St $S_t$ 表示在t时刻的状态

Bellman方程

v (s) = E [G t | S t = s] = E [R t + 1 + γ R t + 2 + γ 2 R t + 3 + \dots | S t = s] = E [R t + 1 + γ (R t + 2 + γ R t + 3 + \dots) | S t = s] = E [R t + 1 + γ v (S t + 1) | S t = s] = R s + γ \sum s' \in S P s, s' v (s')

$\begin{aligned} v(s) &= \mathbb{E}[G_t | S_t=s] \\ &= \mathbb{E}[R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + \cdots | S_t=s] \\ &= \mathbb{E}[R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \cdots) | S_t=s] \\ &= \mathbb{E}[R_{t+1} + \gamma v(S_{t+1})| S_t=s] \\ &= R_s + \gamma \sum_{s'\in S}P_{s,s'}v(s') \end{aligned}$
这个公式就是Bellman方程的基本形态，得到线性方程组

v = R + γ P v

$v=R+\gamma Pv$
可以求得每个状态的价值。

马尔可夫决策过程(MDP)的基本概念

马尔可夫决策过程由五个关键元素 $\lbrace S, A,P,R,\gamma \rbrace$ 组成

$S$ 代表状态集合
$A$ 代表动作集合
$P$ 是三维概率矩阵
$P a s, s' = P [S t + 1 = s' | A t = a, S t = s]$ $P^{a}_{s,s'}=\mathbb{P}[S_{t+1}=s'|A_t=a,S_t=s]$
$R$ 是回报函数， $R:S \times A \rightarrow \Bbb R$ ，有时 $R$ 与 $A$ 无关， $R:S \rightarrow \Bbb R$
$R a s = E [R t + 1 | A t = a, S t = s]$ $R^{a}_{s}=\mathbb{E}[R_{t+1}|A_t=a,S_t=s]$
$\gamma$ 表示学习随着时间推移的折扣率

这里有确定的概率矩阵，所以也就给出了状态转移的模型，所以这里的MDP是基于模型的（Model-based），很多时候概率是不确定的，这就是不基于模型的（Model-free）

马尔可夫决策过程如下

s 0 - \to a 0 s 1 - \to a 1 s 2 - \to a 2 \dots

$s_0 \xrightarrow {a_0} s_1 \xrightarrow {a_1 }s_2 \xrightarrow {a_2} \cdots$
状态

s0 $s_0$ 在动作

a0 $a_0$ 作用下根据概率分布

Ps0a0 $P_{{s_0}{a_0}}$ 到

s1 ${s_1}$ ，然后执行动作

a1⋯ $a_1 \cdots$ ，得到的回报如下

R (s 0, a 0) + γ R (s 1, a 1) + γ 2 R (s 2, a 2) + \dots

$R(s_0 , a_0) + \gamma R(s_1,a_1) + {\gamma}^2R(s_2,a_2) + \cdots$
为了方便解释，把

rt $r_t$ 定义为从状态

st−1 $s_{t-1}$ 执行行为

at−1 $a_{t-1}$ 根据一定概率到达状态

st $s_t$ 所得到的奖励

策略

π (a | s) = P [A t = a | S t = s]

$\pi(a|s)=\mathbb{P}[A_t=a|S_t=s]$
策略是指在各个特定的状态下执行不同动作的概率分布
给定一个MDP

M=⟨S,A,P,R,γ⟩ $M=\langle S,A,P,R,\gamma \rangle$ 和一个策略

π $\pi$ ，那么

⟨S,Pπ⟩ $\langle S,P^{\pi} \rangle$ 是一个MP，

⟨S,Pπ,Rπ,γ⟩ $\langle S,P^{\pi},R^{\pi},\gamma \rangle$ 是一个MRP，其中

P π s, s' = \sum a \in A π (a | s) P a s, s' R π s = \sum a \in A π (a | s) R a s

$\begin{aligned} & P^{\pi}_{s,s'}=\sum_{a \in A}\pi(a|s)P^{a}_{s,s'} \\ & R^{\pi}_s=\sum_{a \in A}\pi(a|s)R^{a}_{s} \end{aligned}$

MDP的价值函数

给定一个MDP $M=\langle S,A,P,R,\gamma \rangle$ 和一个策略 $\pi$ ，因为 $\langle S,P^{\pi},R^{\pi},\gamma \rangle$ 是一个MRP，所以可以求出这个MRP的价值函数

v π (s) = E π [G t | S t = s] = E π [R t + 1 + γ v π (S t + 1) | S t = s]

$\begin{aligned} v_{\pi}(s) &=\mathbb{E}_{\pi}[G_t|S_t=s] \\ &=\mathbb{E}_{\pi}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s] \end{aligned}$

动作价值函数

考虑某个状态下不同动作的价值

q π (s, a) = E π [r t + 1 + γ r t + 2 + γ 2 r t + 3 + \dots | A t = a, S t = s] = E π [G t | A t = a, S t = s] = E π [R t + 1 + γ q π (S t + 1, A t + 1) | A t = a, S t = s]

$\begin{aligned} q_{\pi}(s,a) &=\mathbb{E}_{\pi}[r_{t+1} + \gamma r_{t+2} + \gamma^2r_{t+3} + \cdots | A_t=a, S_t=s] \\ &=\mathbb{E}_{\pi}[G_t| A_t=a,S_t=s] \\ &=\mathbb{E}_{\pi}[R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1})|A_t=a,S_t=s] \end{aligned}$

价值函数和动作价值函数的关系

∵ ∴ v π (s) = \sum a \in A π (a | s) q π (s, a) q π (s, a) = R a s + γ \sum s' \in S P a s, s' v π (s') v π (s) = \sum a \in A π (a | s) (R a s + γ \sum s' \in S P a s, s' v π (s')) v π = R π + γ P π v π v π = (1 - γ P π) R π

$\begin{equation} \begin{aligned} \because \space & v_{\pi}(s) = \sum_{a \in A}\pi(a|s)q_{\pi}(s,a) \\ & q_{\pi}(s,a) = R^{a}_{s} + \gamma \sum_{s' \in S}P^{a}_{s,s'}v_{\pi}(s') \\ \therefore \space & v_{\pi}(s) = \sum_{a \in A}\pi(a|s)\Big(R^{a}_{s} + \gamma \sum_{s' \in S}P^{a}_{s,s'}v_{\pi}(s') \Big) \\ & v_{\pi} = R^{\pi} + \gamma P^{\pi}v_{\pi} \\ & v_{\pi} = (1- \gamma P^{\pi})R^{\pi} \end{aligned} \end{equation}$
所以在给定的策略下可以求出价值函数和动作价值函数

最优价值函数和最优动作价值函数

定义最优价值函数 $v_*:S \longrightarrow \mathbb{R}$

v * (s) = max π v π (s)

$v_{*}(s) = \max_{\pi}v_{\pi}(s)$

定义最优动作价值函数 $q_*:S \longrightarrow \mathbb{R}$

q * (s, a) = max π q π (s, a)

$q_{*}(s,a) = \max_{\pi}q_{\pi}(s,a)$

策略的偏序关系

π' \geq π ⟺ v π' (s) \geq v π (s), \forall s \in S

$\pi{'} \ge \pi \iff v_{\pi{'}}(s) \ge v_{\pi}(s), \forall s \in S$

定理

对于任意一个MDP

存在一个最优策略 $\pi_{*} 使得对于 \forall \pi，\pi_{*} \ge \pi$
所有的最优策略对应的价值函数就是最优价值函数 $v π * (s) = v * (s)$ $v_{\pi_{*}}(s) = v_{*}(s)$
所有的最优策略对应的动作价值函数就是最优动作价值函数 $q π * (s, a) = q * (s, a)$ $q_{\pi_{*}}(s,a) = q_{*}(s,a)$

根据这个定理，可以得到Bellman最优方程

v * (s) = max a q * (s, a) q * (s, a) = R a s + γ \sum s' \in S P a s, s' v * (s')

$\begin{aligned} & v_{*}(s)=\max_{a}q_{*}(s,a) \\ & q_{*}(s,a) = R^{a}_{s} + \gamma \sum_{s' \in S}P^{a}_{s,s'}v_{*}(s') \\ \end{aligned}$

策略迭代(Policy Iteration)

Policy Iteration的目的是通过迭代计算value function 价值函数的方式来使policy收敛到最优。
Policy Iteration本质上就是直接使用Bellman方程而得到的：

v k + 1 (s) = E π [R t + 1 + γ v k (S t + 1) | S t = s] = \sum a \in A π (a | s) (R a s + γ \sum s' \in S P a s, s' v k (s'))

$\begin{aligned} v_{k+1}(s) &= \mathbb{E}_{\pi}[R_{t+1}+\gamma v_{k}(S_{t+1})|S_t=s] \\ &= \sum_{a \in A}\pi(a|s)\Big(R^{a}_{s} + \gamma \sum_{s' \in S}P^{a}_{s,s'}v_{k}(s') \Big) \\ \end{aligned}$
Policy Iteration一般分为两步:
1. 策略评估 Policy Evaluation：更新

vπ $v_{\pi}$
2. 策略改进 Policy Improvement：

π′=greedy(vπ) $\pi' = greedy(v_{\pi})$
直至收敛到

π∗ $\pi_{*}$

考虑一个决定性的策略， $a=\pi(s) 既 \pi(a|s)=1$ 可以通过贪婪的方法改进策略

π' (s) = q π (s, π' (s)) = \geq ∴ v π (s) \leq q π (s, π' (s)) = \leq \leq \leq = a r g max a \in A q π (s, a) max a \in A q π (s, a) q π (s, π (s)) = v π (s) E π' [R t + 1 + γ v π (S t + 1) | S t = s] E π' [R t + 1 + γ q π (S t + 1, π' (S t + 1)) | S t = s] E π' [R t + 1 + γ R t + 2 + γ 2 q π (S t + 2, π' (S t + 2)) | S t = s] \dots \leq E π' [R t + 1 + γ R t + 2 + γ 2 R t + 3 + \dots | S t = s] v π' (s)

$\begin{aligned} \pi'(s)=&arg\max_{a \in A}q_{\pi}(s,a) \\ q_{\pi}(s,\pi'(s)) =&\max_{a \in A}q_{\pi}(s,a) \\ \ge& q_{\pi}(s,\pi(s))=v_{\pi}(s) \\ \therefore v_{\pi}(s) \le q_{\pi}(s,\pi'(s)) =& \mathbb{E}_{\pi'}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_{t}=s] \\ \le& \mathbb{E}_{\pi'}[R_{t+1}+\gamma q_{\pi}(S_{t+1},\pi'(S_{t+1}))|S_{t}=s] \\ \le& \mathbb{E}_{\pi'}[R_{t+1}+ \gamma R_{t+2} + \gamma^2 q_{\pi}(S_{t+2},\pi'(S_{t+2}))|S_{t}=s] \\ \le& \cdots \le \mathbb{E}_{\pi'}[R_{t+1}+ \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots |S_{t}=s] \\ =& v_{\pi'}(s) \end{aligned}$
如果改进结束，那么

v π (s) = q π (s, π' (s)) = max a \in A q π (s, a)

$v_{\pi}(s)=q_{\pi}(s,\pi'(s))=\max_{a \in A}q_{\pi}(s,a)$
满足Bellman最优方程，因此

v π (s) = v * (s) \forall s \in S

$v_{\pi}(s) = v_{*}(s) \space \forall s \in S$
得多了最优策略

π∗ $\pi_{*}$

值迭代(Value Iteration)

根据Bellman最优方程，得到

v * (s) = max a \in A (R a s + γ \sum s' \in S P a s, s' v * (s'))

$v_{*}(s)=\max_{a \in A} \Big( R^a_s + \gamma \sum_{s' \in S}P^a_{s,s'}v_{*}(s') \Big)$
有以下迭代公式

v k + 1 (s) = max a \in A (R a s + γ \sum s' \in S P a s, s' v k (s')) v k + 1 = max a \in A (R a + γ P a v k) v 1 \to v 2 \to v 3 \to \dots \to v * π * (s) = a r g max a \in A (R a s + γ \sum s' \in S P a s, s' v * (s'))

$v_{k+1}(s)=\max_{a \in A} \Big( R^a_s + \gamma \sum_{s' \in S}P^a_{s,s'}v_{k}(s') \Big) \\ v_{k+1} = \max_{a \in A} \Big( R^a + \gamma P^a v_k \Big) \\ v_1 \rightarrow v_2 \rightarrow v_3 \rightarrow \cdots \rightarrow v_* \\ \pi^*(s) = arg \max_{a \in A} \Big( R^a_s + \gamma \sum_{s' \in S}P^a_{s,s'}v_{*}(s') \Big)$

greent2008

关注

5
点赞
踩
47

收藏

觉得还不错? 一键收藏
3
评论
强化学习中的马尔可夫决策过程

前言我在学习Playing Atari with Deep Reinforcement Learning这篇论文时，文章中引用到了马尔可夫决策过程的相关概念，为此特意学习了马尔可夫决策过程的相关知识。马尔可夫决策过程的基本概念马尔可夫决策过程由五个关键元素{S,A,{Psa},γ,R}\lbrace S, A,\lbrace P_{sa} \rbrace , \gamma, R\r
复制链接

扫一扫