主要基于Robbins-Monro algorithm 简称RM展开,其中介绍RM以及mean estimation、gradient descent(GD)、batch gradient descent(BGD)、stochastic gredient descent(SGD)、momentum batch gradient descent(MBGD)
①mean eatimation:
此算法就是采样相关数据,求解数据的平均值(期望expectation),由于直接相加求解expectation需要等待所有数据被采样,所以使用incremental and iterative的方法,达到可以收集到一个数据便可以求解expectation的目的,将上式进行变形,得到第k个采样后expectation和第k+1个expectation的关系,具体算法如下(w是expectation):
证明mean estimation是特殊的RM算法(RM算法在②中):
已知:,求解
当时,可以看出mean estimation和RM算法结果相同。
②Robbins-Monro algrithm
RM算法主要是求解,来优化
,
是J(w)
达到max/min的必要条件,当J(w)只有一个极值便为充要条件。
具体公式如下:
其中,为对g(w)=0的第k次估计,
是对g(w)带有噪音
的一次观测值,如果利用此公式,需要满足一下条件:
(1)需要和
的数据
(2),此条件保证g(w)有界且经过横轴,g(w)递增且是凸函数
(3),此条件保证g(w)不要收敛太快
,此条件保证g(w)可以收敛至0,方程有解
(4),
,
一般是iid
GD、BGD、SGD主要解决,即求解
expectation的最小值,也就是求解方向导数为0时的值,即
,具体如下:
①gredient descent (GD)
其中,为对
也就是最优解的估计,
是步长,决定了在梯度方向下降的快慢。
由于此方法需要批量的数据求解expection,因此效率不高,引入BGD
②Batch Gradient Descent(BGD)
BGD是对GD的改进,即使用incremental and iterative的方法(mean eatimation同样使用了),达到可以收集到一个数据便可以求解方程的目的,将GD进行变形,得到第k个采样后方程根和第k+1个方程根的关系:
③Stochastic Gredient Descent(SGD)
SGD就是将BGD的n换成了1,即采样一次来近似:
④Momentum Batch Gradient Descent(MBGD)
MBGD就是将BGD采样全部数据变为采样一部分,具体如下: