机器学习_阅读笔记_梯度下降

最新推荐文章于 2023-12-28 22:18:34 发布

kanbuqinghuanyizhang

最新推荐文章于 2023-12-28 22:18:34 发布

阅读量336

点赞数

分类专栏：笔记机器学习面试

本文链接：https://blog.csdn.net/kanbuqinghuanyizhang/article/details/79062724

版权

面试同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

笔记

15 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

前言

梯度下降法可以帮助我们找到某个函数的极小值或者最小值。这里先拿一个损失函数来说，假设损失函数如下：

我们最终的目的求参数 $\theta_0$ $\theta_1$ 使得损失函数对于给定的样本求得的值最小。

$\theta_0$ 、 $\theta_1$ 对应损失函数的图像关系类似一个碗状(bowl shape)

单个参数与损失函数的关系图类似于以下二维图：

我们发现：

当 $\theta$ 在最小值左边的时候，损失函数的导数（斜率）是负的；
当 $\theta$ 在最小值右边的时候，导数是正的；
当 $\theta$ 在最小值附近的时候，导数接近0.

因此，如果我们在：

导数为负的时候增加 $\theta$ ；
导数为正的时候减小 $\theta$ ；

为达到上面调整参数 $\theta$ 的目的，我们可以定义步长 $\alpha$ （Learning rate），并通过以下公式对调整参数值：

对上述损失函数可以将上述公式转化成以下公式：

梯度

在微积分里面，对多元函数的参数求 $∂$ 偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点 $(x_0,y_0)$ 的具体梯度向量就是 $(∂f/∂x_0, ∂f/∂y_0)^T$ .或者▽f(x0,y0)，如果是3个参数的向量梯度，就是 $(∂f/∂x, ∂f/∂y，∂f/∂z)^T$ ,以此类推。

在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数f(θ)的最小值，这时我们需要用梯度下降法来迭代求解。但是实际上，我们可以反过来求解损失函数 -f(θ)的最大值，这时梯度上升法就派上用场了。

梯度下降

对于前言中讲到2个参数对应的损失函数是个碗状，更抽象的可以比作一个山脉(如下图)，我们如何从山脉的某处走到山脚，当然有可能我们不能走到山脚，而是到了某一个局部的山峰低处。因此，梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。

梯度下降算法

一、先决条件：确认优化模型的假设函数和损失函数。
比如对于线性回归，假设函数表示为 $h_\theta(x_1,x_2,...x_n)=\theta_0+\theta_1x_1+...+\theta_nx_n$ , 其中 $\theta_i$ (i = 0,1,2… n)为模型参数， $x_i$ (i = 0,1,2… n)为每个样本的n个特征值。我们增加一个特征 $x_0=1$ ，这样可以简化成 $h_θ(x_0,x_1,...x_n)=\sum_{i=0}^{n}\theta_ix_i$ 。

同样是线性回归，对应于上面的假设函数，损失函数为(同前言)：

J (θ 0, θ 1 . . ., θ n) = 1 2 m \sum i = 0 m (h θ (x 0, x 1, . . . x n) - y i) 2

$J(\theta_0,\theta_1...,\theta_n)=\frac{1}{2m} \sum_{i=0}^{m} (h_\theta(x_0,x_1,...x_n)-y_i)^2$

二、算法相关参数初始化：主要是初始化参数 $\theta$ ，算法终止距离 $ε$ 以及步长 $\alpha$
TODO：初始化方法后期补充

三、计算过程
1)、定当前位置的损失函数的梯度，对于 $\theta_i$ ,其梯度表达式如下：

\partial \partial θ i J (θ 0, θ 1 . . ., θ n)

$\frac{\partial}{\partial\theta_i}J(\theta_0,\theta_1...,\theta_n)$
2)、用步长乘以损失函数的梯度，得到当前位置下降的距离，即

α∂∂θiJ(θ0,θ1...,θn) $\alpha \frac{\partial}{\partial\theta_i}J(\theta_0,\theta_1...,\theta_n)$
具体例子见前言
3)、确定是否所有的

θi $\theta_i$ ,梯度下降的距离都小于

ε $ε$ ，如果小于

ε $ε$ 则算法终止，当前所有的

θi(i=0,1,...n) $\theta_i(i=0,1,...n)$ 即为最终结果。否则进入步骤4.
4)、更新所有的

θ $\theta$ ，对于

θi $\theta_i$ ，其更新表达式如下。更新完毕后继续转入步骤1.

θ i = θ i - α \partial \partial θ i J (θ 0, θ 1 . . ., θ n)

$\theta_i = \theta_i - \alpha \frac{\partial}{\partial\theta_i}J(\theta_0,\theta_1...,\theta_n)$

具体示例见前言。

调优

1、步长 $\alpha$ 的选择，可以选择多个值进行效果调试。 $\alpha$ 足够小时， $J(\theta)$ 会一直下降， $\alpha$ 太小，收敛太慢， $\alpha$ 太大，可能不会每次迭代都下降，可能不会收敛。
2、算法参数的初始值选择。
3、特征值归一化。参数 $J(\theta)$ 在数据范围小的情况下下降快，在数据方位大的情况下下降慢，所以我们可以将所有特征值都缩放到−1 ≤ x(i) ≤ 1或者−0.5 ≤ x(i) ≤ 0.5范围内，可以使用以下方法

这里写图片描述

4、Momentum、RMSProp算法、Adam优化算法等，可参考这或自行搜索资料

normal equation

下面直接给出公式

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{−1}X^Ty$
其中，

θ $\theta$ 为

n $n$ x1的向量，里面有n个代数法的模型参数。

X $X$ 为

m $m$ x

n $n$ 维的矩阵。

y $y$ 为

n $n$ x1的向量，m代表样本的个数，n代表样本的特征数。
下面给出证明
首先要回顾一下线性代数：
1.单位矩阵

E $E$ 是一个对角线全为1，其他元素都为零的方阵 :

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 10 ⋮ 0 01 ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\left[ \begin{matrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \\ \end{matrix} \right]$

2.方阵 A 的逆矩阵记为 $A^{−1}$ ，同时其满足下面的特性:

A \times A - 1 = E

$A×A^{−1}=E$
或

A - 1 \times A = E

$A^{−1}×A=E$

下面开始证明
假设模型矩阵表达式为

y = X θ

$y = X\theta$
首先在两边同时左乘

XT $X^T$ 得到

X T y = X T X θ

$X^Ty=X^TX\theta$
再在两边同时左乘

(XTX)−1 $(X^TX)^{-1}$ 得到

(X T X) - 1 X T y = (X T X) - 1 X T X θ

$(X^TX)^{-1}X^Ty=(X^TX)^{-1}X^TX\theta$
其中

(XTX)−1XTX $(X^TX)^{-1}X^TX$ 求得为单位矩阵，可以消除故得

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{−1}X^Ty$

与梯度下降的比较

这里写图片描述

对于 $m ≤ n$ (样本数少于特征数)， $X^TX$ 不可逆

梯度下降分类

批量梯度下降法（Batch Gradient Descent）

批量梯度下降法，是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新。

θ j = θ j - α m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j f o r i = 1 . . n

$\theta_j = \theta_j - \frac{\alpha}{m} \sum_{i=1}^{m} ( h_\theta(x^{(i)} ) - y^{(i)} ) x_{j}^{(i)} \ \ \ for\ i = 1 .. n$
m表示样本总数

优点：最小化所有训练样本的损失函数，得到全局最优解；易于并行实现。
缺点：当样本数目很多时，训练过程会很慢。

示意图：
这里写图片描述

随机梯度下降法（Stochastic Gradient Descent）

跟BGD相似，只是每次迭代更新只使用一个样本

θ j = θ j - α (h θ (x (i)) - y (i)) x (i) j f o r i = 1 . . n

$\theta_j = \theta_j - \alpha ( h_\theta(x^{(i)} ) - y^{(i)} ) x_{j}^{(i)} \ \ \ for\ i = 1 .. n$
优点：训练速度快。
缺点：最小化每条样本的损失函数，最终的结果往往是在全局最优解附近，不是全局最优；不易于并行实现。

示意图：
这里写图片描述