李宏毅机器学习—梯度下降

樂樂子_

于 2023-03-04 17:33:17 发布

阅读量292

点赞数

分类专栏：李宏毅《机器学习》笔记文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/qq_44858789/article/details/129334220

版权

1 篇文章 0 订阅

订阅专栏

梯度下降

梯度下降是迭代法的一种，可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）常用来解决无约束优化问题，即解决以下问题：
在这里插入图片描述

其中 $L$ 为损失函数， $\theta$ 为参数
注意： $\theta$ 并不只是一个参数，而是一组参数，假设当 $\theta$ 的个数为2时，此时有：
$\theta=\left[ \begin{matrix} \theta_1 \\ \theta_2 \\ \end{matrix} \right]$
得到如下的梯度下降过程：
公式中的参数的含义如下：
$\theta^i$ 表示第i次迭代后的参数值
$\eta$ 表示学习率
$\frac{\partial L(\theta_i)}{\partial \theta_i}$ 表示对参数求偏导
$\Delta L(\theta^i)$ 表示梯度

根据上面的公式可以看出：学习率的选择一定程度上影响每次迭代后参数的取值，从而影响损失函数最后的取值。

一般情况下，学习率从一开始设置就不变了，这样一成不变的学习率会导致损失函数的取值不稳定，因此比较简单的方法就是随着迭代的进行不断通过某些因子来降低学习率，其思想就是：

刚开始的取值距离最低点较远，所以采用比较大的学习率
随着迭代次数的增加越来越靠近最低点，这时候可以降低学习率
例如可以采用 $\eta^t = \frac{\eta}{\sqrt{t+1}}$ （t为迭代次数）来更新学习率

注意：学习率不是 one-size-fits-all，不同的参数应该有不同的学习率

算法的主要思想是：令当前的学习率等于上一次迭代后得到的学习率除以当前迭代次数之前的所有微分之和的均方根

普通的学习率计算方法： $w^t+1=w^t - \eta^tg^t$
Adagrad算法： $w^t+1=w^t - \frac{\eta^t}{\sigma^t}g^t$ ${\sigma^t} = \sqrt{\frac{1}{t+1}\sum_{i=0}^t(g^i)^2}$
化简： 利用 $\eta^t = \frac{\eta}{\sqrt{t+1}}$ 来表示学习率，化简后有: $w^t+1 = w^t - \frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t$

随机梯度下降的作用可以使训练的速度更快些

普通的梯度下降：
$\sum_n(\hat{y}_n - (b + \sum w_ix_i^n))^2$
$\theta^i = \theta^i-1 - \eta\Delta L(\theta^i-1)$
注意：是所有训练例子的损失率的总和
更快的随机梯度下降：
$L^n = (\hat{y}_n - (b + \sum w_ix_i^n))^2$
$\theta^i = \theta^i-1 - \eta\Delta L^n(\theta^i-1)$
注意：随机梯度并不是针对所有的数据进行处理，而是随机的选取一个例子 $x^n$ ，所以如果有20个例子，就一次分别更新这20例子的参数值