强化学习06——随机近似和随机梯度下降

catcatcatcx

已于 2023-11-13 16:02:59 修改

阅读量270

点赞数

文章标签：人工智能机器学习

于 2023-11-12 16:44:48 首次发布

本文链接：https://blog.csdn.net/catcatcatcx/article/details/134354445

版权

本篇博客内容源于课程《强化学习的数学原理》赵世钰老师西湖大学，旨在记录学习强化学习的过程。

强化学习06——随即近似和随机梯度下降

Robbins-Monro algorithm
- Robbins-Monro 算法收敛性的理论支撑
随机梯度下降（Stochastic gradient descent）
- SGD的收敛性分析
参考资料

Stochastic approximation (SA)是指一大类求根和优化问题的随机迭代算法，与许多其他求根算法相比，SA 的强大之处在于它无需知道目标函数的表达式或其导数。Robbins-Monro算法是SA领域的开创工作。

Robbins-Monro algorithm

假定我们想要找到如下等式的根： $g (w) = 0$ 其中 $g:\mathbb{R}\rightarrow\mathbb{R}$ ， $w\in \mathbb{R}$ 是要求解的变量。假如不知道 $g$ 的函数表达式该怎么求解呢？例如 $g$ 是由神经网络表示。
Robbins-Monro 算法可以解决这个问题： $w_{k+1}=w_{k}-a_k\tilde{g}(w_k,\eta_{k}),k=1,2,3...$

$w_{k}$ 是第k次对根的估计
$\tilde{g}(w_k,\eta_{k})=g(w_{k})+\eta_{k}$ 噪声观测
$a_k$ 是正系数

显然，这个算法不依赖于模型 $g$ ，但依赖于数据：

输入序列： ${w_k\}$
噪声输出序列： $\{\tilde{g}(w_k,\eta_{k})\}$

接下来看一个例子，利用Robbins-Monro 算法求解如下问题的根： $g(w)=\tanh(w-1)$
参数设置如下：

$w_{1}=3,a_{k}=\frac{1}{k},\eta_{k}=0$ （为了简化不考虑噪音）

那么在这种情况下Robbins-Monro 算法如下： $w_{k+1}=w_{k}-a_{k}g(w_{k})$ 可以得到计算过程如下：
在这里插入图片描述
最终序列 ${w_{k}\}$ 会收敛至根 $w^{*}=1$ 。

Robbins-Monro 算法收敛性的理论支撑

Dvoretzky’s Theorem

先介绍Dvoretzky’s Theorem，Robbins-Monro 算法收敛性可以由Dvoretzky’s Theorem导出。什么是Dvoretzky’s Theorem？
在这里插入图片描述

令 $h_{k}=\Delta_{k}^{2}$ ，那么 $h_{k+1}-h_{k}$ 有如下形式：

等式两边取条件期望，有：

简化式子：（思考：为什么 $\Delta_{k},\alpha_{k},\beta_{k}$ 可以被提出期望？）

根据定理给的条件，可以给出 $\mathbb{E}[h_{k+1}-h_{k}|\mathcal{H}_k]$ 上界的一个估计：
在这里插入图片描述
两边对 $k$ 求和：

应用quasimartingale convergence theorem可以推出 $h_{k}$ 收敛，所以 $\Delta_{k}$ 也收敛，接下来确定 $\Delta_{k}$ 到底收敛于何值。
由（6.9）式可知：

事实上，等式右边两项都受 $\infty$ 约束，所以容易知道等式左边也受 $\infty$ 约束：
在这里插入图片描述
（证明原文可以在课程对应书籍中找到）

Robbins-Monro 收敛定理

接下来回到Robbins-Monro 算法收敛性的分析，给出Robbins-Monro收敛定理：
在这里插入图片描述
这个定理告诉我们，只要满足上述给出的三个条件，那么由Robbins-Monro 算法得到的序列 ${w_{k}\}$ 就能收敛到我们所要求的根 $w^{*}$ 。如何证明呢？我们是依据Dvoretzky’s Theorem，事实上Dvoretzky’s Theorem证明了，Robbins-Monro 收敛定理就能很轻松的证明，以下是证明过程：
在这里插入图片描述