【RL】MDP(2)

最新推荐文章于 2023-12-11 15:14:07 发布

Quant0xff

最新推荐文章于 2023-12-11 15:14:07 发布

阅读量174

点赞数

分类专栏： # ai_algorithm # 随机过程与随机模型 # 强化学习文章标签：强化学习策略迭代价值迭代

本文链接：https://blog.csdn.net/qq_18822147/article/details/107772467

版权

ai_algorithm 同时被 3 个专栏收录

30 篇文章 0 订阅

订阅专栏

随机过程与随机模型

18 篇文章 4 订阅

订阅专栏

强化学习

4 篇文章 1 订阅

订阅专栏

前文链接

MDP(1)

策略迭代

策略评估

矩阵算法

在动态特性 $\mathcal{P}(s', r'\mid s, a)$ ，给定 $\pi$ 得到 $q_\pi(s, a)$ .
令
$V_\pi(s)=\left( \begin{matrix} V_\pi(s_1)\\ V_\pi(s_2)\\ \vdots\\ V_\pi(s_{|s|}) \end{matrix} \right)_{|s|\times 1}$
根据 $V_\pi(s)$ 表达式可以得到
$\begin{aligned} V_\pi(s)&=\mathbb{E}_\pi[G_t\mid S_t=s] \\ &=\mathbb{E}_\pi[R_{t+1}+\gamma V_{\pi}S_{t+1}\mid S_t=s] \\ &=\sum_a\pi(a\mid s_i)\sum_{s', r}\mathcal{P}(s', r\mid s, a)[r+\gamma V_\pi(s')] \end{aligned}$
展开得到
$\begin{aligned} V_\pi(s)=\underbrace{\sum_a\pi(a\mid s)\sum_{s', r}\mathcal{P}(s', r\mid s, a)r}_{(A)}+\underbrace{\gamma\sum_{a}\pi(a\mid s)\sum_{s', r}\mathcal{P}(s', r\mid s, a)V_\pi(s')}_{(B)} \end{aligned}$
其中 $(A)$ 部分可以表示为
$\sum_{a}\pi(a\mid s)\sum_{r}r\mathcal{P}(r\mid s, a)=\sum_{a}\pi(a\mid s)\mathbb{E}[R_{t+1}\mid S_t=s, A_t=a]$
令 $a)\triangleq\mathbb{E}[R_{t+1}\mid S_t=s, A_t=a]$
得到
$(A)=\sum_a\pi(a\mid s)r(s, a)=r_\pi(s)$
引入向量 $r_\pi$
$r_\pi=\left( \begin{matrix} r_\pi(s_1)\\ r_\pi(s_2)\\ \vdots\\ r_\pi(s_{|s|}) \end{matrix} \right)_{|s|\times 1}$
$(B)$ 部分值为
$\begin{aligned} (B)&=\gamma\sum_a\pi(a\mid s)\sum_{s'}\mathcal{P}(s'\mid s, a)V_\pi(s') \\ &=\gamma\sum_{s'}\underbrace{\sum_a\pi(a\mid s)\mathcal{P}(s'\mid s, a)}_{P_\pi(s, s')}V_\pi(s')\\ &=\gamma\sum_{s'}P_\pi(s, s')V_\pi(s') \end{aligned}$
令 $P_\pi\triangleq[P_\pi(s, s')]$ ，得到
$V_\pi=r_\pi+\gamma P_\pi V_\pi$
解出
$V_\pi=(\mathbf{I}-\gamma P_\pi)^{-1}r_\pi$
算法时间复杂度为 $\mathcal{O}(|s|^3)$ .

迭代法

给定 $\pi$ ，求出 $V_\pi$ .
$V_\pi(s)=\sum_a\pi(a\mid s)\sum_{s', r}\mathcal{P}(s', r\mid s, a)(r+\gamma V_\pi(s'))$
构造一个数列 $\{V_k\}_{k=1}^\infty\to V_\pi$
迭代方程为
$V_{k+1}(s)\triangleq \sum_a\pi(a\mid s)\sum_{s', r}\mathcal{P}(s', r\mid s, a)(r+\gamma V_k(s'))$

策略改进

求出 $q_\pi(s, a)$ 构造出新的 $\pi'$ ，使得 $q_{\pi'}(s, a)>q_{\pi}(s, a)$ .

策略改进定理：给定 $\pi, \pi'$ 如果 $\forall s\in S$ , $q_\pi(s, \pi'(s))$ ，那么则有 $\forall s\in S, V_{\pi'}(s)\geq V_{\pi}(s)$

证明：
根据公式
$\begin{aligned} q_\pi(s, a)&=\sum_{s', r}\mathcal{P}(s', r\mid s, a)[r+\gamma V_\pi(s')] \\ &=\mathbb{E}[R_{t+1}+\gamma V_\pi(S_{t+1})\mid S_t=s, A_t=a]\\ &=\mathbb{E}[R_{t+1}+\gamma V_\pi(S_{t+1})\mid S_t=s, A_t=\pi'(s)] \\ &=\mathbb{E}_{\pi'}[R_{t+1}+\gamma V_\pi(S_{t+1})\mid S_t=s] \\ &\leq \mathbb{E}_{\pi'}[R_{t+1}+\gamma q_\pi(S_{t+1}, \pi'(S_{t+1}))\mid S_t=s] \\ &=\mathbb{E}_{\pi'}[R_{t+1}+\gamma\mathbb{E}_{\pi'}[R_{t+2}+\gamma V_\pi(S_{t+2})\mid S_{t+1}]\mid S_t=s] \\ &=\mathbb{E}_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2V_\pi(S_{t+2})\mid S_t=s]\\ &\dots\\ &\leq \mathbb{E}_{\pi'}[\underbrace{R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\dots}_{G_t}\mid S_t=s]\\ &=V_{\pi'}(s) \end{aligned}$

贪心策略(Greedy Policy): $\forall s \in S \pi'(s)=\argmax_a q_\pi(s, a)$

$V_\pi(s)\leq \max_a q_\pi(s, a)=q_\pi(s, \pi'(s))$
由策略改进定理可知
$\forall s\in S, V_{\pi'}(s)\geq V_\pi(s)$

如果 $V_{\pi'}=V_\pi$ 那么 $V_{\pi'}=V_\pi=V_*$

证明：
当 $V_{\pi'}=V_{\pi}\Rightarrow q_{\pi'}=q_{\pi}$ .
所以
$\begin{aligned} &\forall s\in S\\ V_{\pi'}(s)&=\sum_{a}\pi'(a\mid s)q_{\pi'}(s, a)q_{\pi}(s, a)\\ &=q_\pi(s, \pi'(s))\\ &=\max_a q_\pi(s, a)\\ &=\max_a \sum_{s', r}\mathcal{P}(s', r\mid s, a)[r+\gamma V_{\pi'}(s')] \end{aligned}\tag{1}$
可以发现 $(1)$ 是Bellman Optimality Equation.