《机器学习》学习笔记（四）—梯度下降

最新推荐文章于 2023-12-28 22:18:34 发布

时光机丶

最新推荐文章于 2023-12-28 22:18:34 发布

阅读量186

点赞数

分类专栏：机器学习学习笔记《机器学习》学习笔记

本文链接：https://blog.csdn.net/qq_39293290/article/details/89498672

版权

机器学习学习笔记同时被 2 个专栏收录

26 篇文章 5 订阅

订阅专栏

《机器学习》学习笔记

26 篇文章 3 订阅

订阅专栏

Gradient Descent（梯度下降）

假设权值系数 $\theta$ 包含两个变量 $\{\theta_1,\theta_2\}$
随机选取初始值
$\theta^0=\begin{bmatrix}\theta_1^0\\\theta_2^0\end{bmatrix}$

之后不断计算偏导进行迭代至收敛
在这里插入图片描述
这里微分 $\nabla L=\begin{bmatrix}\partial L(\theta_1)/\partial \theta_1\\\partial L(\theta_2)/\partial \theta_2\end{bmatrix}$

关于对学习速率 $\eta$ 的调整

在实际运用中，尽管我们很大程度上希望可以通过 Gradient Descent 逐渐找到最优解，但是选取 $\eta$ 并没有那么简答，在此，我们的函数需要满足 convex function，我们在这个前提下讨论如何调整学习速率 $\eta$ 。
在这里插入图片描述
从上图我们容易看出， $\eta$ 选取的过大过小都有影响， $\eta$ 偏小导致学习速度慢， $\eta$ 偏大则可能震荡导致无法收敛到最优解。我们需要的是一个合适对 $\eta$ 的选择和调整的方法

最流行也是最简单的做法就是：在每一轮都通过一些因子来减小学习速率 $\eta$ 。
最开始时，我们距离最低点很远，所以我们用较大的学习速率 $\eta$ 。
经过几次迭代后，我们接近了最低点，所以我们减少学习速率 $\eta$ 。
比如： 1/t 衰减： ${\eta}^t=\eta/\sqrt{t+1}$
学习速率不能从一而终
要给不同的参数设置不同的学习速率 $\eta$ 。

这里给出一个比较好的方法—梯度下降法 Adagrad
在这里插入图片描述
其中
$\eta ^t=\frac{\eta}{\sqrt{t+1}}$
$^t=\frac{\partial L(\theta^t)}{\partial{w}}$
$\sigma ^t=\sqrt{\frac{1}{t+1}\sum\limits_{i=0}^t(g^i)^2}$

这样操作后，每组的学习速率 $\eta$ 都不一样。
注意到 $\eta ^t$ 和 $g^t$ 中存在可以约分的因子
在这里插入图片描述
这样，越到后面，学习速率也会越慢。

那么，为什么在 Adagrad 中要引入 $\sqrt{\sum\limits_{i=0}^t(g^i)^2}$ 这个分母呢
在这里插入图片描述
直观的解释是：Adagrad 强调的是方差的效果

当我们仔细分析一下其中的原因，举一个一元二次函数的例子
之后，我们又可以发现最优步长的分母其实是函数的二阶微分， $\frac{\partial^2y}{\partial x^2}=2a$ ，所以最优的步长选择应该是 $\frac{|First\ derivative|}{|Second\ derivative|}$

同样对于多个参数的情况，我们也要考虑二阶微分，最优的步长选择是 $\frac{|First\ derivative|}{|Second\ derivative|}$
在这里插入图片描述
那么在 Adagrade 中可以类比使用 $\frac{|First\ derivative|}{|Second\ derivative|}$ 这种形式，但是 Adagrade 中并没有使用这种一阶微分比上二阶微分，因为这样会加大计算量，导致运行速率降低，所以，我们使用一阶微分来估计二阶微分的数值并代替使用。
在这里插入图片描述

随机梯度下降算法（SGD）

Stochastic Gradient Descent

SGD中，每次更新参数只使用一个样本，这样就可以快速的完成训练过程。

在这里插入图片描述
很显然，随机梯度下降算法的运算量小，效率也就越高

Feature Scaling（特征缩放）

让不同的特征值具有相同的缩放程度。

比如说，一个函数模型中有两个特征，但是它们分布范围不一样。那我们可以进行一定的缩放，让它们的范围大小相近。让这些特征值具有相同的缩放程度。
$y=b+w_1x_1+w_2x_2$
在这里插入图片描述
比分说上面的这个函数模型，特征值的范围大小会对他们的损失函数 $L$ 造成一定的影响。

那么怎么实现 Feature Scaling（特征缩放）
方法非常多，一种常见的做法如下：

每一个对象都有一组特征值，对于每一个维度的特征值（绿色框）计算其平均数，记作 $m_i$ ，计算标准差，记作 $\sigma_i$ 。
然后用第 $r$ 个对象中的第 $i$ 个输入，减掉平均数 $m_i$ ，除以标准差 $\sigma_i$ 。得到的结果是所有的维数都是 0，所有的方差都是 1。

时光机丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》学习笔记（四）—梯度下降

Gradient Descent（梯度下降）假设权值系数 θ\thetaθ 包含两个变量 {θ1,θ2}\{\theta_1,\theta_2\}{θ1,θ2}随机选取初始值θ0=[θ10θ20]\theta^0=\begin{bmatrix}\theta_1^0\\\theta_2^0\end{bmatrix}θ0=[θ10θ20]之后不断计算微分进行迭代至收敛这里微分 ∇...
复制链接

扫一扫