强化学习中的重要收敛性结论(2)：常见RL算法的收敛性

赛亚茂

于 2023-06-07 11:43:55 发布

阅读量674

点赞数

分类专栏：闲散杂记文章标签：算法矩阵机器学习

本文链接：https://blog.csdn.net/shengzimao/article/details/131021576

版权

闲散杂记专栏收录该内容

24 篇文章 16 订阅

订阅专栏

强化学习的理论基础是MDP（Markov Decesion Process），当MDP中的策略 $\pi$ 确定之后，MDP便是最一般的Markov Process的形式。这里需要补充一些MDP中的基础概念：

（1）策略 $\pi$ 下的累计折扣回报 $G_t=\sum_{k=0}^{\infty}\gamma^kR_{k+t}$ ，其中 $r\in (0,1]$ 是折扣因子， $R_{t}$ 表示 $t$ 时刻的奖励。

（2）策略 $\pi$ 下的价值函数 $q_{\pi}(s,a)$ ，定义式： $q_{\pi}(s,a)=\mathbf{E}_t[G_t|s_0=s,a_0=a,\pi]$ ；

推导式： $q_{\pi}(s,a)=r(s,a)+\gamma\sum_{s^{'}}\mathbf{Pr}(s^{'}|s,a)v_{\pi}(s^{'})$ ;其中 $r (s, a)$ 是在状态 $s$ 下采取动作 $a$ 的奖励期望。

（3）策略 $\pi$ 下的价值函数 $v_{\pi}(s)$ ，定义式： $v_{\pi}(s)=\mathbf{E_t}[G_t|s_0=s,\pi]$ ；

推导式： $v_{\pi}(s)=\mathbf{E}_{a\sim \pi(.|s)}[q_{\pi}(s,a)]=\sum_{a}\pi(a|s)q_{\pi}(s,a)$ ;

（4）Bellman方程： $v_{\pi}(s)=\sum_{a}\pi(a|s)(r(s,a)+\gamma\sum_{s^{'}}\mathbf{Pr}(s^{'}|s,a)v_{\pi}(s^{'}))$ ，矩阵形式为 $v_{\pi}=r_{\pi}+\gamma P_{\pi}v_{\pi}$ 。

(TD算法的收敛性) 在策略 $\pi$ 下智能体与环境交互产生了一串随机序列 $s_0,a_0,r_1,s_1,a_1,r_2,s_2,...)$ ，若对强化学习中 $t$ 时刻的价值函数采用如下式子进行值函数迭代：
$v_{t+1}(s_t)=v_t(s_t)-\alpha_t(s_t)[v_t(s_t)-[r_{t+1}+\gamma v_t(s_{t+1})]],\\ v_{t+1}(s)=v_t(s),\forall s\ne s_t$
当满足以下条件：

（1）状态空间 $S$ 中的状态 $s_t$ 有限；

（2） $\forall s\in S,\sum_t\alpha_t(s)=\infty,\sum_{t}\alpha^2_t(s)<\infty$ ;

则： $\forall s \in S,v_t(s)\rightarrow v_{\pi}(s),w.p.1$ 。

Proof. 设 $t$ 时刻为状态 $s_t=s$ 则 $\alpha_t(s)>0$ ,否则 $\alpha_t(s)=0,\forall s_t \ne s$ ，则迭代式可以变形为：
$v_{t+1}(s)=v_t(s)-\alpha_t(s)[v_t(s)-[r_{t+1}+\gamma v_t(s^{'})]]\\=(1-\alpha_t(s))v_t(s)+\alpha_t(s)[r_{t+1}+\gamma v_t(s^{'})],\forall s\in S,t={t_0,t_1,...}$
其中 $s^{'}$ 是当前 $t$ 时刻从 $s$ 转移到的下一个状态。设 $\Delta_{k+1}(s)=v_{k+1}(s)-v_{\pi}(s)$ ，带入上式得到：
$\Delta_{k+1}(s)=(1-\alpha_k(s))\Delta_k(s)+\alpha_k(s)[r_{k+1}+\gamma v_k(s_{k+1})-v_{\pi}(s)]$
其中 $s_{k}=s$ 表示当前时刻 $k$ 的状态， $s_{k+1}$ 表示 $k + 1$ 时刻的状态。设 $e_k(s)=r_{k+1}+\gamma v_k(s_{k+1})-v_{\pi}(s),\Delta_k=[\Delta_k(s_1),\Delta_k(s_2),...\Delta_k(s_{|S|})]^T$ , $H_k=\{\Delta_k,\Delta_{k-1},...e_{k-1},...,\alpha_{k-1},...\}$ ， $e_k=[e_{k}(s_1),e_k(s_2),...e_k(s_{|S|})]^T,v_{\pi}=[v_{\pi}(s_1),...v_{\pi}(s_{|S|})]^T$ ,且 $\mathbf{E}[v_k(s_{k+1})|H_k]=\mathbf{E}_{s_{k+1}}[v_k(s_{k+1})|s_k=s]=\sum_{s^{'}}\mathbf{Pr}[s^{'}|s]v_k(s^{'})$ ,则可以得到:
$||\mathbf{E}[e_k|H_k]||_{\infty}=||r_{\pi}+\gamma P_{\pi}v_k-v_{\pi}||_{\infty}\\=||r_{\pi}+\gamma P_{\pi}v_k-(r_{\pi}+\gamma P_{\pi}v_{\pi})||_{\infty}\\=\gamma||P_{\pi}(v_k-v_{\pi})||_{\infty}\\\leq\gamma||v_k-v_{\pi}||_{\infty}=\gamma||\Delta_k||_{\infty}$
同理可得 $\mathbf{Var}[e_k|H_k]$ 有界，由Dvoretzky’s 收敛定理的扩展： $\Delta_k(s)\rightarrow 0,w.p.1$ ，即 $v_k(s)\rightarrow v_{\pi}(s),w.p.1s$ .

（线性值函数逼近的收敛性） 当采用式 $\hat{v}(s;w)=\phi(s)^Tw$ ， $\phi(s)\in R^m$ ，当采用TD算法更新 $w$ 使 $\hat{v}(s;w)$ 逼近 $v_{\pi}(s)$ 即：
$\min_{w}\mathbf{E}_{s\sim d(.)}[(\hat{v}(s;w)-v_{\pi}(s))^2]\\=\min_{w}\mathbf{E}_{s_t\sim d(.)}[(\hat{v}(s_t;w_t)-(r_{t+1}+\gamma \hat{v}(s_{t+1};w_t)))^2]$
采用以下迭代式进行参数更新：
$w_{t+1}=w_t+\alpha_t\mathbf{E}_t[(r_{t+1}+\gamma\phi^T(s_{t+1})w_t-\phi^T(s_t)w_t)\phi(s_t)]$
则有以下结论成立：

（1）迭代式中的期望可以写成：
$\mathbf{E}_t[(r_{t+1}+\gamma\phi^T(s_{t+1})w_t-\phi^T(s_t)w_t)\phi(s_t)]=b-Aw_t$
其中 $A=\Phi^TD(I-\gamma P_{\pi})\Phi\in R^{m\times m}$ ， $b=\Phi^T D r_{\pi} \in R^m$ 。其中：
$\Phi=\begin{pmatrix}...\\\phi^T(s)\\... \end{pmatrix}\in R^{|S|\times m},D=\begin{pmatrix} ...& & \\ & d_{\pi}(s) & \\ & & ...\end{pmatrix}\in R^{|S|\times |S|}$
（2）当采用SGD算法进行梯度下降： $w_{t+1}=w_t+\alpha_t(b-Aw_t)$ ，若满足 $\sum_t\alpha_t = \infty$ ， $\sum_t \alpha_t^2 < \infty$ ，或在其他的一些条件下有： $w_t\rightarrow w^*=A^{-1}b=v_{\pi}$ 。

Proof.（1）证明略，想详细了解细节可以参考原书。

（2）易知 $\delta_t = w_t-w^*$ ，且 $w^*=A^{-1}b$ ，带入 $w_{t+1}=w_t+\alpha_t(b-Aw_t)$ 得到： $\delta_{t+1}=(I-\alpha_t A)\delta_t$ ，即：
$\delta_{t+1}=\prod_{k=0}^t(I-\alpha_kA)\delta_0$
若 $\alpha_t=\alpha,\forall t$ ： $||\delta_{t+1}||\leq||(I-\alpha A)||^{t+1}||\delta_0||$ ，若 $\alpha >0$ 且 $\rho(I-\alpha A)<1$ ，则： $\delta_t \rightarrow 0$ ，即： $w_t \rightarrow w^*$ .