优化算法

最新推荐文章于 2023-03-22 09:39:16 发布

漂流瓶zps

最新推荐文章于 2023-03-22 09:39:16 发布

阅读量310

点赞数

分类专栏：机器学习文章标签：机器学习的优化算法

本文链接：https://blog.csdn.net/qq_33154865/article/details/100679473

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习的优化算法

优化算法

优化算法

在看线性模型的时候，我们寻找的是误差函数梯度为0 的点，更直接点的说法二次函数一阶导数为0的点。不过这只是我们在线性模型里看到的，实际上一阶导数为0 的点，可能是平面、鞍点、局部最小点、全局最小点。局部和全局都差不多了。鞍点和平面肯定是不能要的。

以后再配图吧，先记笔记

随机梯度下降

损失函数 $L(\theta)$ 、梯度 $\nabla L(\theta)$ 、参数 $\theta$ 、学习率 $\eta$
$\theta^i = \theta^{i-1} - \eta \nabla L(\theta^{i-1})$

我们的目标
$\theta ^ * = arg_{\theta} min L(\theta)$

希望更新参数后
$L(\theta_0) > L(\theta_1) > L(\theta_2) ......$
这个可以用泰勒级数来证明

使用随机梯度下降，也就是每次取一定量的数据集来计算梯度，而不是全部的数据集，这也有利于跳出局部极小点和鞍点

动量法

梯度下降法的学习率其实不好把握，大了不收敛，小了原地爬
对梯度下降法做一个修改
$v_i = \gamma v_{i-1} + \eta \nabla L(\theta)$
$\theta_i = \theta_{i-1} - v_i$

当前速度 $v_i$ 动量参数 $\gamma$ 是一个小于1 的正数，学习率 $\eta$
上述公式相当于在每次更新参数的时候，都会将之前的速度考虑进来，每个参数在各个方向上的移动幅度不仅仅取决于当前速度，还取决于过去的各个梯度在各个方向上的是否一致
如果一个梯度一直沿着一个方向进行更新，那么每次更新的幅度就越来越大，这个理解思路和随机梯度下降一样
如果一个梯度在一个方向上不断变化，那么它梯度更新幅度就会被衰减，设想一下，损失函数，在某个参数下呈现近似平面，这个参数更不更新无所谓了。
$v_0 = 0$
$v_1 = \gamma v_0 + \eta g = \eta g$
$v_2 = \gamma v_1 + \eta g = (1 + \gamma ) \eta g$
$. . . . . .$
$v_{+\infty} = (1 + \gamma + \gamma^2 + \gamma^3 + ....) = \frac{1}{1 - \gamma} \eta g$ 麦克劳林展开，最后动量也会达到一个峰值
所以 $\gamma$ 要小于0，这里 $\gamma$ 是一个衰减系数。

Adagrad

上面说到的梯度下降，动量法，里面的学习率 $\eta$ 是固定的学习率进行参数更新。但是呢，不同的参数梯度可能不一样，所以需要不同的学习率。（过两天再写吧）

漂流瓶zps

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化算法

机器学习的优化算法优化算法随机梯度下降动量法Adagrad优化算法在看线性模型的时候，我们寻找的是误差函数梯度为0 的点，更直接点的说法二次函数一阶导数为0的点。不过这只是我们在线性模型里看到的，实际上一阶导数为0 的点，可能是平面、鞍点、局部最小点、全局最小点。局部和全局都差不多了。鞍点和平面肯定是不能要的。以后再配图吧，先记笔记随机梯度下降损失函数L(θ)L(\theta)L(θ) ...
复制链接

扫一扫