4.机器学习——梯度下降

最新推荐文章于 2024-05-06 19:01:08 发布

pxlsdz

最新推荐文章于 2024-05-06 19:01:08 发布

阅读量301

点赞数

分类专栏：机器学习笔记文章标签： python 机器学习

本文链接：https://blog.csdn.net/sdz20172133/article/details/109529539

版权

机器学习笔记专栏收录该内容

11 篇文章 4 订阅

订阅专栏

梯度下降

梯度下降法指的是函数值loss随梯度下降的方向减小
归问题的第三步中，需要解决下面的最优化问题：
$\theta^{*}=\underset{\theta}{\arg \operatorname{minL}}(\theta)$
L :lossfunction（损失函数）
$\theta$ :parameters（参数）

parameters是复数，即 θ 指代一堆参数，比如上篇说到的 w和 b 。

我们要找一组参数 θ ，让损失函数越小越好，这个问题可以用梯度下降法解决：

假设 θ 有里面有两个参数 $\theta_1, \theta_2$ ,随机选取初始值:
$\theta^{0}=\left[\begin{array}{l} \theta_{1}^{0} \\ \theta_{2}^{0} \end{array}\right]$
在这里插入图片描述
Gradient: Loss的等高線的法線方向

Learning rate存在的问题

在这里插入图片描述

做gradient descent一个很重要的事情是，要把不同的learning rate下，loss随update次数的变化曲线给可视化出来

Tip1：调整学习速率

小心翼翼地调整学习率

自适应学习率
最基本、最简单的大原则是：learning rate通常是随着参数的update越来越小的
举一个简单的思想：随着次数的增加，通过一些因子来减少学习率

通常刚开始，初始点会距离最低点比较远，所以使用大一点的学习率
update好几次参数之后呢，比较靠近最低点了，此时减少学习率
比如 $\eta^t =\frac{\eta^t}{\sqrt{t+1}}$ ，t是次数。随着次数的增加， $η^t$ 减小

学习率不能是一个值通用所有特征，不同的参数需要不同的学习率

Adagrad 算法

Adagrad 是什么？

Adagrad就是将不同参数的learning rate分开考虑的一种算法
在这里插入图片描述
这里的w是function中的某个参数，t表示第t次update， $g^t$ 表示Loss对w的偏微分，而 $\sigma^{t}$ 是之前所有Loss对w偏微分的方均根(根号下的平方均值)，这个值对每一个参数来说都是不一样的
$\begin{aligned} &\text {Adagrad}\\ &w^{1}=w^{0}-\frac{\eta^{0}}{\sigma^{0}} \cdot g^{0} \quad \sigma^{0}=\sqrt{\left(g^{0}\right)^{2}}\\ &w^{2}=w^{1}-\frac{\eta^{1}}{\sigma^{1}} \cdot g^{1} \quad \sigma^{1}=\sqrt{\frac{1}{2}\left[\left(g^{0}\right)^{2}+\left(g^{1}\right)^{2}\right]}\\，=。 &w^{3}=w^{2}-\frac{\eta 2}{\sigma^{2}} \cdot g^{2} \quad \sigma^{2}=\sqrt{\frac{1}{3}\left[\left(g^{0}\right)^{2}+\left(g^{1}\right)^{2}+\left(g^{2}\right)^{2}\right]}\\ &w^{t+1}=w^{t}-\frac{\eta^{t}}{\sigma^{t}} \cdot g^{t} \quad \sigma^{t}=\sqrt{\frac{1}{1+t} \sum_{i=0}^{t}\left(g^{i}\right)^{2}} \end{aligned}$
最后公式：
$w^{t+1}=w^{t}-\frac{\eta}{\sum_{i=0}^{t}\left(g^{i}\right)^{2}} \cdot g^{t}$

Adagrad的contradiction（矛盾）解释
分母表示梯度越大步伐越小，分子却表示梯度越大步伐越大，两者似乎相互矛盾。
原因：
直观：反差效果
深层： $g^t$ 就是一次微分，而分母中的 $\sum\limits_{i=0}^t(g^i)^2$ 反映了二次微分的大小，所以Adagrad想要做的事情就是，在不增加任何额外运算的前提下，想办法去估测二次微分的值。
在这里插入图片描述

Stochastic Gradicent Descent

随机梯度下降的方法可以让训练更快速，

传统的gradient descent的思路是看完所有的样本点之后再构建loss function，然后去update参数；
stochastic gradient descent的做法是，看到一个样本点就update一次，因此它的loss function不是所有样本点的error平方和，而是这个随机样本点的error平方。

Feature Scaling

概念介绍
特征缩放，当多个特征的分布范围很不一样时，最好将这些不同feature的范围缩放成一样。
方法：
假设有R个example(上标i表示第i个样本点)， $x^1,x^2,x^3,...,x^r,...x^R$ ，每一笔example，它里面都有一组feature(下标j表示该样本点的第j个特征)

对每一个demension i，都去算出它的平均值mean= $m_i$ ，以及标准差standard deviation= $\sigma_i$

对第r个example的第i个component，减掉均值，除以标准差，即
$x_i^r=\frac{x_i^r-m_i}{\sigma_i}$

将每一个参数都归一化成标准正态分布，即 $f(x_i)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x_i^2}{2}}$ ，其中 $x_i$ 表示第i个参数

gradient descent的限制

gradient descent的限制是，它在gradient即微分值接近于0的地方就会停下来，而这个地方不一定是global minima，它可能是local minima，可能是saddle point鞍点，甚至可能是一个loss很高的plateau平缓高原

gradient descent数学

Taylor Series
泰勒表达式： $h(x)=\sum\limits_{k=0}^\infty \frac{h^{(k)}(x_0)}{k!}(x-x_0)^k=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+...$

When x is close to $x_0$ : $h(x)≈h(x_0)+h'(x_0)(x-x_0)$

同理，对于二元函数，when x and y is close to $x_0$ and $y_0$ ：

$h(x,y)≈h(x_0,y_0)+\frac{\partial h(x_0,y_0)}{\partial x}(x-x_0)+\frac{\partial h(x_0,y_0)}{\partial y}(y-y_0)$

从泰勒展开式推导出gradient descent
对于loss图像上的某一个点(a,b)，如果我们想要找这个点附近loss最小的点，就可以用泰勒展开的思想
在这里插入图片描述

假设用一个red circle限定点的范围，这个圆足够小以满足泰勒展开的精度，那么此时我们的loss function就可以化简为：

$L(\theta)≈L(a,b)+\frac{\partial L(a,b)}{\partial \theta_1}(\theta_1-a)+\frac{\partial L(a,b)}{\partial \theta_2}(\theta_2-b)$

令 $s = L (a, b)$ ， $u=\frac{\partial L(a,b)}{\partial \theta_1}$ ， $v=\frac{\partial L(a,b)}{\partial \theta_2}$

则 $L(\theta)≈s+u\cdot (\theta_1-a)+v\cdot (\theta_2-b)$

假定red circle的半径为d，则有限制条件： $(\theta_1-a)^2+(\theta_2-b)^2≤d^2$

此时去求 $L(\theta)_{min}$ ，这里有个小技巧，把 $L(\theta)$ 转化为两个向量的乘积： $u\cdot (\theta_1-a)+v\cdot (\theta_2-b)=(u,v)\cdot (\theta_1-a,\theta_2-b)=(u,v)\cdot (\Delta \theta_1,\Delta \theta_2)$

观察图形可知，当向量 $(\theta_1-a,\theta_2-b)$ 与向量 $(u, v)$ 反向，且刚好到达red circle的边缘时(用 $\eta$ 去控制向量的长度)， $L(\theta)$ 最小

在这里插入图片描述

$(\theta_1-a,\theta_2-b)$ 实际上就是 $(\Delta \theta_1,\Delta \theta_2)$ ，于是 $L(\theta)$ 局部最小值对应的参数为中心点减去gradient的加权 $\begin{bmatrix} \Delta \theta_1 \ \Delta \theta_2 \end{bmatrix}= -\eta \begin{bmatrix} u \ v \end{bmatrix}=> \begin{bmatrix} \theta_1 \ \theta_2 \end{bmatrix}= \begin{bmatrix} a\ b \end{bmatrix}-\eta \begin{bmatrix} u\ v \end{bmatrix}= \begin{bmatrix} a\ b \end{bmatrix}-\eta \begin{bmatrix} \frac{\partial L(a,b)}{\partial \theta_1}\ \frac{\partial L(a,b)}{\partial \theta_2} \end{bmatrix}$ 这就是gradient descent在数学上的推导，注意它的重要前提是，给定的那个红色圈圈的范围要足够小，这样泰勒展开给我们的近似才会更精确，而 $\eta$ 的值是与圆的半径成正比的，因此理论上learning rate要无穷小才能够保证每次gradient descent在update参数之后的loss会越来越小，于是当learning rate没有设置好，泰勒近似不成立，就有可能使gradient descent过程中的loss没有越来越小