强化学习(Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

主要基于Robbins-Monro algorithm 简称RM展开,其中介绍RM以及mean estimation、gradient descent(GD)、batch gradient descent(BGD)、stochastic gredient descent(SGD)、momentum batch gradient descent(MBGD)

①mean eatimation:

E(X)=\bar{x}=\frac{1}{N}=\sum_{i=1}^{N}x_{i}

此算法就是采样相关数据,求解数据的平均值(期望expectation),由于直接相加求解expectation需要等待所有数据被采样,所以使用incremental and iterative的方法,达到可以收集到一个数据便可以求解expectation的目的,将上式进行变形,得到第k个采样后expectation和第k+1个expectation的关系,具体算法如下(w是expectation):

w_{k+1}=\frac{1}{k}\sum_{i=1}^{k}x_{i}

w_{k}=\frac{1}{k-1}\sum_{i=1}^{k-1}x_{i}

w_{k+1}=\frac{1}{k}\sum_{i=1}^{k}x_{i}

                        =\frac{1}{k}(\sum_{i=1}^{k-1}x_{i}+x_{k})

                            =\frac{1}{k}((k-1)w_{k}+x_{k})

                ​​​​​​​        =w_{k}-\frac{1}{k}(w_{k}-x_{k})

证明mean estimation是特殊的RM算法(RM算法在②中):

g(w)=w-E(x)

已知:\tilde{g(w,x)}=w-x,求解

\tilde{g(w,\eta )}=w-x

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​    =w-x+E(x)-E(x)

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​          =(w-E(x))+(E(x)-x)

        ​​​​​​​        ​​​​​​​   =g(w)+\eta

RM:g(x)=0

w_{k+1}=w_{k}-a_{k}\tilde{g(w_{k},\eta _{k})}

        ​​​​​​​     =w_{k}-\alpha _{k}(w_{k}-x_{k})

\alpha _{k}=\frac{1}{k}时,可以看出mean estimation和RM算法结果相同。

②Robbins-Monro algrithm

RM算法主要是求解g(w)=0,来优化J(w),g(w)=\bigtriangledown _{w}J(w)=0是J(w)

达到max/min的必要条件,当J(w)只有一个极值便为充要条件。

具体公式如下:

w_{k+1}=w_{k}-a_{k}\tilde{g(w_{k},\eta _{k})}

其中,w_{k}为对g(w)=0的第k次估计,g(w_{k},\eta _{k})=g(w_{k})+\eta _{k}是对g(w)带有噪音\eta的一次观测值,如果利用此公式,需要满足一下条件:

(1)需要w_{k}g(w_{k},\eta _{k})的数据

(2)0< C_{1}\leq \bigtriangledown _{w}g(w)\leq C_{2},此条件保证g(w)有界且经过横轴,g(w)递增且是凸函数

(3)\sum_{k=1}^{\infty }a_{k}=\infty,此条件保证g(w)不要收敛太快

        \sum_{k=1}^{\infty }a_{k}^{^{2}}< \infty,此条件保证g(w)可以收敛至0,方程有解

(4)E(\eta _{k}|H_{_{k}})=0,E(\eta _{k}^{2}|H_{_{k}})<\infty,{\eta _{k}}一般是iid

GD、BGD、SGD主要解决min_{w}J(w)=E[f(w,X)],即求解f(w,X)expectation的最小值,也就是求解方向导数为0时的值,即\bigtriangledown _{w}J(w)=0,具体如下:

①gredient descent (GD)

w_{k+1}=w_{k}-a_{k}\bigtriangledown _{w}E[f(w_{k},x_{k})]

其中,w_{k}为对w^{*}也就是最优解的估计,a_{k}是步长,决定了在梯度方向下降的快慢。

由于此方法需要批量的数据求解expection,因此效率不高,引入BGD

②Batch Gradient Descent(BGD)

BGD是对GD的改进,即使用incremental and iterative的方法(mean eatimation同样使用了),达到可以收集到一个数据便可以求解方程的目的,将GD进行变形,得到第k个采样后方程根和第k+1个方程根的关系:

E[\bigtriangledown _{w}f(w_{k},X)]\frac{1}{n}\approx\sum_{i=1}^{n}f(w_{k},x_{i})

w_{k+1}=w_{k}-a_{k}\sum_{i=1}^{n}f(w_{k},x_{i})

③Stochastic Gredient Descent(SGD)

SGD就是将BGD的n换成了1,即采样一次来近似w^{*}

w_{k+1}=w_{k}-a_{k}f(w_{k},x_{k})

④Momentum Batch Gradient Descent(MBGD)

MBGD就是将BGD采样全部数据变为采样一部分,具体如下:

 w_{k+1}=w_{k}-a_{k}\frac{1}{m}\sum_{j\in I_{k}}^{}f(w_{k},x_{j})

  • 29
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值