梯度下降法Gradient Descent

最新推荐文章于 2022-10-02 10:01:15 发布

染血白衣

最新推荐文章于 2022-10-02 10:01:15 发布

阅读量334

点赞数

分类专栏：算法

10 篇文章 1 订阅

订阅专栏

暑假在浙大接触了太多次梯度下降法,共轭梯度下降法，至今都没有做过总结，甚至自己不知道怎么把梯度下降法最好最直观的说出来，今天就来根据再走一下思路。

最优化问题在机器学习中有非常重要的地位，很多机器学习算法最后都归结为求解最优化问题。在各种最优化算法中，梯度下降法是最简单、最常见的一种，在深度学习的训练中被广为使用。在本文中，将为大家系统的讲述梯度下降法的原理和实现细节问题。

最优化问题是求解函数极值的问题，包括极大值和极小值。

相信所有的读者对这个问题都不陌生，在初中时我们就学会了求解二次函数的极值（抛物线的顶点），高中时学习了幂函数，指数函数，对数函数，三角函数，反三角函数等各种类型的函数，求函数极值的题更是频频出现。这些方法都采用了各种各样的技巧，没有一个统一的方案。

真正的飞跃发生在大学时，微积分为我们求函数的极值提供了一个统一的思路：找函数的导数等于0的点，因为在极值点处，导数必定为0。这样，只要函数的可导的，我们就可以用这个万能的方法解决问题，幸运的是，在实际应用中我们遇到的函数基本上都是可导的。

在机器学习之类的实际应用中，我们一般将最优化问题统一表述为求解函数的极小值问题，即：

其中x称为优化变量，f称为目标函数。极大值问题可以转换成极小值问题来求解，只需要将目标函数加上负号即可：

有些时候会对优化变量x有约束，包括等式约束和不等式约束，它们定义了优化变量的可行域，即满足约束条件的点构成的集合。在这里我们先不考虑带约束条件的问题。

一个优化问题的全局极小值是指对于可行域里所有的x，有：

即全局极小值点处的函数值不大于任意一点处的函数值。局部极小值定义为存在一个邻域，对于在邻域内：

并且在可行域内的所有x，有：

即局部极小值点处的函数值比一个局部返回内所有点的函数值都小。在这里，我们的目标是找到全局极小值。不幸的是，有些函数可能有多个局部极小值点，因此即使找到了导数等于0的所有点，还需要比较这些点处的函数值。

导数与梯度

由于实际应用中一般都是多元函数，因此我们跳过一元函数，直接介绍多元函数的情况。梯度是导数对多元函数的推广，它是多元函数对各个自变量偏导数形成的向量。多元函数的梯度定义为：

其中称为梯度算子，它作用于一个多元函数，得到一个向量。下面是计算函数梯度的一个例子：

（嗯......今年暑假太多次接触梯度算子，学习了不少新知识，对于一个普通人，任何知识都要往深了钻~）

可导函数在某一点处取得极值的必要条件是梯度为0，梯度为0的点称为函数的驻点，这是疑似极值点。需要注意的是，梯度为0只是函数取极值的必要条件而不是充分条件，即梯度为0的点可能不是极值点。

至于是极大值还是极小值，要看二阶导数/Hessian矩阵，Hessian矩阵我们将在后面的文章中介绍，这是由函数的二阶偏导数构成的矩阵。这分为下面几种情况：

这和一元函数的结果类似，Hessian矩阵可以看做是一元函数的二阶导数对多元函数的推广。一元函数的极值判别法为，假设在某点处导数等于0，则：

在这里我们可能会问：直接求函数的导数/梯度，然后令导数/梯度为0，解方程，问题不就解决了吗？事实上没这么简单，因为这个方程可能很难解。比如下面的函数：

我们分别对x和y求偏导数，并令它们为0，得到下面的方程组：

这个方程非常难以求解，对于有指数函数，对数函数，三角函数的方程，我们称为超越方程，求解的难度并不比求极值本身小。

精确的求解不太可能，因此只能求近似解，这称为数值计算。工程上实现时通常采用的是迭代法，它从一个初始点开始，反复使用某种规则从移动到下一个点，构造这样一个数列，直到收敛到梯度为0的点处。即有下面的极限成立：

这些规则一般会利用一阶导数信息即梯度；或者二阶导数信息即Hessian矩阵。这样迭代法的核心是得到这样的由上一个点确定下一个点的迭代公式：这个过程就像我们处于山上的某一位置，要到山底找水喝，因此我们必须到达最低点处：

此时我们没有全局信息，根本就不知道哪里是地势最低的点，只能想办法往山下走，走一步看一步。刚开始我们在山上的某一点处，每一步，我们都往地势更低的点走，以期望能走到山底。

关注

专栏目录