强化学习（Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

最新推荐文章于 2024-07-25 19:26:54 发布

赵荏苒

最新推荐文章于 2024-07-25 19:26:54 发布

阅读量758

点赞数 29

分类专栏：强化学习文章标签：人工智能 python 算法机器学习

本文链接：https://blog.csdn.net/m0_52094641/article/details/140218649

版权

强化学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

主要基于Robbins-Monro algorithm 简称RM展开，其中介绍RM以及mean estimation、gradient descent（GD）、batch gradient descent（BGD）、stochastic gredient descent（SGD）、momentum batch gradient descent（MBGD）

①mean eatimation:

$E(X)=\bar{x}=\frac{1}{N}=\sum_{i=1}^{N}x_{i}$

此算法就是采样相关数据，求解数据的平均值（期望expectation），由于直接相加求解expectation需要等待所有数据被采样，所以使用incremental and iterative的方法，达到可以收集到一个数据便可以求解expectation的目的，将上式进行变形，得到第k个采样后expectation和第k+1个expectation的关系，具体算法如下（w是expectation）：

$w_{k+1}=\frac{1}{k}\sum_{i=1}^{k}x_{i}$

$w_{k}=\frac{1}{k-1}\sum_{i=1}^{k-1}x_{i}$

$w_{k+1}=\frac{1}{k}\sum_{i=1}^{k}x_{i}$

$=\frac{1}{k}(\sum_{i=1}^{k-1}x_{i}+x_{k})$

$=\frac{1}{k}((k-1)w_{k}+x_{k})$

$=w_{k}-\frac{1}{k}(w_{k}-x_{k})$

证明mean estimation是特殊的RM算法（RM算法在②中）：

$g(w)=w-E(x)$

已知： $\tilde{g(w,x)}=w-x$ ，求解

$\tilde{g(w,\eta )}=w-x$

$=w-x+E(x)-E(x)$

$=(w-E(x))+(E(x)-x)$

$=g(w)+\eta$

$RM:g(x)=0$

$w_{k+1}=w_{k}-a_{k}\tilde{g(w_{k},\eta _{k})}$

$=w_{k}-\alpha _{k}(w_{k}-x_{k})$

当 $\alpha _{k}=\frac{1}{k}$ 时，可以看出mean estimation和RM算法结果相同。

②Robbins-Monro algrithm

RM算法主要是求解 $g(w)=0$ ，来优化 $J(w)$ , $g(w)=\bigtriangledown _{w}J(w)=0$ 是J（w）

达到max/min的必要条件，当J(w)只有一个极值便为充要条件。

具体公式如下：

$w_{k+1}=w_{k}-a_{k}\tilde{g(w_{k},\eta _{k})}$

其中， $w_{k}$ 为对g（w）=0的第k次估计， $g(w_{k},\eta _{k})=g(w_{k})+\eta _{k}$ 是对g（w）带有噪音 $\eta$ 的一次观测值，如果利用此公式，需要满足一下条件：

（1）需要 $w_{k}$ 和 $g(w_{k},\eta _{k})$ 的数据

（2） $0< C_{1}\leq \bigtriangledown _{w}g(w)\leq C_{2}$ ，此条件保证g（w）有界且经过横轴，g（w）递增且是凸函数

（3） $\sum_{k=1}^{\infty }a_{k}=\infty$ ,此条件保证g(w)不要收敛太快

$\sum_{k=1}^{\infty }a_{k}^{^{2}}< \infty$ ，此条件保证g（w）可以收敛至0，方程有解

（4） $E(\eta _{k}|H_{_{k}})=0$ , $E(\eta _{k}^{2}|H_{_{k}})<\infty$ , ${\eta _{k}}$ 一般是iid

GD、BGD、SGD主要解决 $min_{w}J(w)=E[f(w,X)]$ ，即求解 $f(w,X)$ expectation的最小值，也就是求解方向导数为0时的值，即 $\bigtriangledown _{w}J(w)=0$ ，具体如下：

①gredient descent （GD）

$w_{k+1}=w_{k}-a_{k}\bigtriangledown _{w}E[f(w_{k},x_{k})]$

其中， $w_{k}$ 为对 $w^{*}$ 也就是最优解的估计， $a_{k}$ 是步长，决定了在梯度方向下降的快慢。

由于此方法需要批量的数据求解expection，因此效率不高，引入BGD

②Batch Gradient Descent（BGD）

BGD是对GD的改进，即使用incremental and iterative的方法（mean eatimation同样使用了），达到可以收集到一个数据便可以求解方程的目的，将GD进行变形，得到第k个采样后方程根和第k+1个方程根的关系：

$E[\bigtriangledown _{w}f(w_{k},X)]\frac{1}{n}\approx\sum_{i=1}^{n}f(w_{k},x_{i})$

$w_{k+1}=w_{k}-a_{k}\sum_{i=1}^{n}f(w_{k},x_{i})$

③Stochastic Gredient Descent（SGD）

SGD就是将BGD的n换成了1，即采样一次来近似 $w^{*}$ ：

$w_{k+1}=w_{k}-a_{k}f(w_{k},x_{k})$

④Momentum Batch Gradient Descent（MBGD）

MBGD就是将BGD采样全部数据变为采样一部分，具体如下：

$w_{k+1}=w_{k}-a_{k}\frac{1}{m}\sum_{j\in I_{k}}^{}f(w_{k},x_{j})$

赵荏苒

关注

29
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
强化学习（Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

主要基于Robbins-Monro algorithm 简称RM展开，其中介绍RM以及mean estimation、gradient descent（GD）、batch gradient descent（BGD）、stochastic gredient descent（SGD）、momentum batch gradient descent（MBGD），此条件保证g（w）有界且经过横轴，g（w）递增且是凸函数。，此条件保证g（w）可以收敛至0，方程有解。为对g（w）=0的第k次估计，也就是最优解的估计，
复制链接

扫一扫