梯度下降

最新推荐文章于 2024-05-05 23:58:08 发布

luocy16

最新推荐文章于 2024-05-05 23:58:08 发布

阅读量141

点赞数

分类专栏：人工智能文章标签：梯度下降

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

梯度下降算法

机器学习中常见的最小化问题是：
$:f(w)=\sum_{i=1}^{N}{f_{i}(w)}$

例如：可认为每一项都是一个数据点的残差

1.经典梯度下降

一般的考虑就是，随机选取 $w$ ，之后
计算梯度 $\nabla f$ ,之后对于 $w$ ，用下面办法更新
$w_{t}=w_{t-1}-\alpha\nabla f(w_{t-1})$
收敛性好，但是，容易出现陷入局部极值，并且单步计算量大

2.随机梯度下降

N 是一个随机变量，服从均匀分布 ${1,2,...,n\}$ ,按下面办法更新 $w_{t}$
$w_{t}=w_{t-1}-\alpha\nabla f_{N}(w_{t-1})$
即使对于凸函数，这个东西也不一定收敛，实际上 $f_{N}(w_{t-1})$ 作为一个估计量，确实是无偏的，但是未必是一致的。

由此，公式应当调整为
$w_{t}=w_{t-1}-\alpha_{t-1}\nabla f_{N}(w_{t-1}) , \alpha_{t} = \alpha_{0}/(1+\lambda t)$

收敛速度明显变慢

3.半随机梯度下降

算法流程：

for k in {1,...,}
	g = grad(f)(w_k)
	y = w_k
	T = 随机获得的t P(T = t) = (1 - lamda * alpha) ** -t
	for i in {1,...,t}
		n is a random int from {1,...,N}
		y = y - a(g - grad(f_n)(y) + grad(f_n)(w_k));
	w_k+1 = y

这种下降方式，实际上计算量还超过了梯度下降，但是其中加入了一些随机的因素，或许可以防止陷入极小值。
收敛速度也是基本和梯度下降差不多。

4. 平均梯度下降

这种下降带有某种记忆性

g_list = [0,...0];
for k in {1,...,}
	N = random.randint(1, n);
	w_k -= alpha/N * (sum([g_list[i] for i in range(0, n) if i != N]) + 
	grad(f_N)(w_k))
	g_N = grad(f_N)(w_k)

算法的弊病在于空间复杂度O(N).

luocy16

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度下降

梯度下降算法机器学习中常见的最小化问题是：min:f(w)=∑i=1Nfi(w)min :f(w)=\sum_{i=1}^{N}{f_{i}(w)}min:f(w)=∑i=1Nfi(w)例如：可认为每一项都是一个数据点的残差1.经典梯度下降一般的考虑就是，随机选取www，之后计算梯度∇f\nabla f∇f,之后对于www，用下面办法更新wt=wt−1−α∇f(wt−1) w_...
复制链接

扫一扫