梯度下降算法推导（机器学习系列-1）

最新推荐文章于 2022-06-05 11:21:52 发布

5guo

最新推荐文章于 2022-06-05 11:21:52 发布

阅读量7.3k

点赞数 2

分类专栏：机器学习文章标签：梯度下降算法线性回归机器学习

本文链接：https://blog.csdn.net/guozhengdong/article/details/62883137

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在网上能够搜到很多关于梯度下降算法的文章，但找了几篇发现推导都不能很好的理解（也可能是愚生数学功底差），本文将着重从数学角度讲述一下梯度下降算法的数学推导。

梯度下降算法理论

梯度下降算法源自于线性回归模型的cost function 最小值计算，在线性回归中，我们通过一个拟合函数：

h (θ) = θ 0 + θ 1 * x 1

$h(\theta)=\theta_0+\theta_1*x_1$ ，然后计算cost function：

J (θ) = 1 2 m \sum i = 0 m (h θ (x) - y) 2

$J(\theta)=\frac{1}{2m}\sum_{i=0}^m(h_\theta(x)-y)^2$
很明显这是计算在某一个

θ $\theta$ 向量取值的时候，所得拟合函数在每组数据

x $x$ 上的计算值与其实际值

y $y$ 的差值，为了更好的展现这种误差，我们用平方和均值来表示，为了后面的计算方便还将其乘以

12 $\frac{1}{2}$ 。那么，后面的问题就是，当我们能够求得一组

θ $\theta$ 值使得

J(θ) $J(\theta)$ 得到最小值的时候，我们就认为得到了最佳拟合参数–

θ $\theta$ 向量。因此，线性拟合模型的问题，最后就归结到了cost function的最小值计算了。那么这里要介绍的方法就是 梯度下降方法。我们通过梯度下降的方法来寻找

J(θ) $J(\theta)$ 的最小值。
看过Andrew Ng视频的人肯定知道，梯度下降算法的原理，就是通过计算

J(θ) $J(\theta)$ 的导数，通过寻找导数最小值的方式，来决定

J(θ) $J(\theta)$ 的下降方向，在不断的迭代之后，即可找到

J(θ) $J(\theta)$ 的最小值。以下就是

J(θ) $J(\theta)$ 的求导计算：

J (θ)' = (1 2 m \sum i = 0 m (h θ (x) - y) 2)' = 1 2 m (\sum i = 0 m (h θ (x) - y) 2)' = 1 2 m 2 (h θ (x) - y) \sum i = 0 m (h θ (x) - y)' = 1 m (h θ (x) - y) \sum i = 0 m (h θ)' = 1 m (h θ (x) - y) \sum i = 0 m (θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n)'

$J(\theta)\prime=(\frac{1}{2m}\sum_{i=0}^m(h_\theta(x)-y)^2)\prime\\=\frac{1}{2m}(\sum_{i=0}^m(h_\theta(x)-y)^2)\prime\\=\frac{1}{2m}2(h_\theta(x)-y)\sum_{i=0}^m(h_\theta(x)-y)\prime\\=\frac{1}{m}(h_\theta(x)-y)\sum_{i=0}^m(h_\theta)\prime\\=\frac{1}{m}(h_\theta(x)-y)\sum_{i=0}^m(\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_n)\prime$
所以：

J (θ j)' = 1 m (h θ (x) - y) \sum i = 0 m (θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n)' = 1 m (h θ (x) - y) x j

$J(\theta_j)\prime=\frac{1}{m}(h_\theta(x)-y)\sum_{i=0}^m(\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_n)\prime\\=\frac{1}{m}(h_\theta(x)-y)x_j$

在梯度下降算法中，我们需要不断收敛各个 $\theta_j$ ，寻找 $J(\theta)$ 的最小值。 $\theta_j$ 在其导数方向上减少（下降），即可使得 $J(\theta)$ 达到最小值，最后当 $J(\theta)$ 收敛时，则停止 $\theta_j$ 的计算。具体如下：
$\theta$ 取随机值（初始值）
repeat:
计算 $h(\theta)$ ，将第一个样本数据y代入，更新 $\theta_j$ -= $(h(\theta)-y)\theta_j$ ，更新每个 $\theta_j$ ，然后把剩下的数据代入，得到一组新的 $\theta$
计算各组数据在新的 $\theta$ 下的 $h(\theta)$ 值与实际值y的误差，当误差小于阈值时.
停止repeat。
完成计算，得到拟合函数 $h(\theta)$