Stochastic Approximation 随机近似方法的详解之（三）Dvoretzky’s convergence theorem

时间里的河

已于 2023-03-02 20:35:13 修改

阅读量809

点赞数 1

分类专栏：强化学习文章标签：机器学习算法人工智能

于 2023-03-02 19:48:25 首次发布

本文链接：https://blog.csdn.net/weixin_37726222/article/details/129306871

版权

强化学习专栏收录该内容

6 篇文章 3 订阅

订阅专栏

定理内容

Theorem 6.2 (Dvoretzky’s Theorem). Consider a stochastic process
$w_{k+1}=\left(1-\alpha_k\right) w_k+\beta_k \eta_k$ ,
其中 $\{\alpha_k\}^\infty_{k=1},\{\beta_k\}^\infty_{k=1},\{\eta_k\}^\infty_{k=1}$ 都是随机序列。这里 ${\alpha_k} \ge 0,{\beta_k} \ge 0$ 对于所有的 $k$ 都是成立的。那么 $w_{k}$ would converge to zero with probability 1 if the following conditions are satisfied:
在这里插入图片描述

要点阐释

RM算法里面的 ${\alpha_k}$ 是确定性的。然而Dvoretzky’s Theorem中 ${\alpha_k},{\beta_k}$ 可以是由 $\mathcal H_k$ 决定的随机变量。因此Dvoretzky’s Theorem 更加通用和强大。
对于uniformly w.p.1 的解释：
不再要求观测误差项 $\eta_k$ 的系数 $\beta_k$ 的收敛速度了，收敛的快也没有关系。

证明在这里不展开，需要用到quasimartingales的知识

在这里插入图片描述

应用

证明Robbins-Monro theorem：
在这里插入图片描述

我们在等式两边同时减去目标根：
$w_{k+1}-w^*=w_k-w^*-a_k\left[g\left(w_k\right)-g\left(w^*\right)+\eta_k\right]$

然后就有：（注意，下面用到了中值定理）

在这里插入图片描述

注意这里的 $\alpha_k$ 不再是确定的了，而是由 $w_k和w_k'$ 共同决定的随机序列。对照Dvoretzky’s convergence theorem成立的条件，发现都满足：
在这里插入图片描述

到这里也就证明了RM算法求解方程根的收敛性。

定理的扩展：

原定理只能解决单变量的问题，不够使啊。必须扩展一下，让它可以处理多变量。扩展后的Dvoretzky’s convergence theorem 可以用来分析一些随机迭代算法的收敛性：比如Q-learning和TD算法。

扩展后的定理的内容：
在这里插入图片描述

在这样的定义下，原先数值上的大小比较就变成了不同向量之间的max norm的比较。注意哈， $\mathcal H_k$ 是历史数据序列。

顺便解释一下max norm：
在这里插入图片描述

定理扩展的一些说明

扩展后的定理比原定理更加通用。首先，由于最大范数（the maximum norm）的引入，它可以处理多元变量的情况，对于具有很多个状态的强化学习问题，这一点很重要。第二，相比于原定理对 $\mathbb{E}\left[e_k(x) \mid \mathcal{H}_k\right]=0$ and $\operatorname{var}\left[e_k(x) \mid \mathcal{H}_k\right] \leq C$ 的要求，this theorem only requires that the expectation and variance are bounded by the error ∆k。
虽然(6.9)只是针对单个状态，但它可以处理多个状态的原因是是因为条件3和4，它们是针对整个状态空间的。此外, 在应用该定理证明RL算法的收敛性时，我们需要表明(6.9)对每个状态都有效。

参考
https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

时间里的河

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
Stochastic Approximation 随机近似方法的详解之（三）Dvoretzky’s convergence theorem

共同决定的随机序列。证明在这里不展开，需要用到quasimartingales的知识。到这里也就证明了RM算法求解方程根的收敛性。然后就有：（注意，下面用到了中值定理）不再是确定的了，而是由。
复制链接

扫一扫