【机器学习】最小二乘法&梯度下降

最新推荐文章于 2024-06-25 01:10:41 发布

IT农民工1

最新推荐文章于 2024-06-25 01:10:41 发布

阅读量3k

点赞数 1

作者：田志晨

来源：小田学Python

最小二乘法

所谓的最小二乘法是一种数学优化技术，它通过最小化误差的平方和找到一组数据的最佳函数匹配。最小二乘法通常用于函数拟合以及求函数极值，很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。

例如已知坐标轴上有一些点，他们主要围绕着一条直线分布，显然并不都在线上，也就不能用一个一次线性表达式来表示，这就需要用到最小二乘法的思想，然后就用线性拟合来求，我们只要做到5个点到这条直线的距离的平方和最小即可。

一段小历史

十九世纪初，科学家勒让德发现了“最小二乘法”，但是并没有引起大家的注意。同时期意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后他就求助全国的科学家来计算该行星的轨迹。这时候，就是年轻的高斯，利用最小二乘法计算出了轨迹，皮亚齐按照高斯计算的数据，果然找到了那颗行星。从此，最小二乘法名声大振。

认识最小二乘法

上面简单介绍了最小二乘法是怎么一回事，现在来学习一下最小二乘法到底是什么。

上面公式中，y 表示实际函数，yi 表示观测值，相减平方再求和即可以求出损失值，H越小，那么就代表各个点更接近拟合函数，拟合效果就越好。

例如使用一元线性拟合拟合：y=ax+b，将y带入公式，其中（xi，yi）是已有的观测值，那么现在 H 就是关于 a、b 的函数，接下来只需要求解器最小值即可。

最小二乘法求解

求解方法有两种，一种是代数方法，另一种是矩阵的方法。

代数方法就是利用高等数学中求偏导的知识，上述函数中包含两个参数，就分别对这两个参数求偏导，令偏导为零，可以得到两个方程，再联立求解。这个公式我就不在这里列举了，写出来更不容易理解，可以参考一下高等数学的课本。

接下来重点介绍下矩阵方法，因为本节内容是为后面介绍其他机器学习算法做准备的，而大部分算法中都是通过矩阵的概念来理解的。

上述是拟合函数的一般形式，其中第二行的 x = (x0,x1,x2...xn)，w = (w0,w1...wn)，上述是一组数据的表达式，例如有 m 个样本数据，那么 x 可以表示为 m*n 维矩阵，w 表示为 1*n 维矩阵。w 也就是 x 前的系数，取自weigh的首字母，有权重的含义。上述损失函数的公式可以写成如下形式。

然后进行对 w 求导计算，令导数为0，最终整理结果为（求导过程就不赘述了）：

相对于代数计算，这样更方便，而且更利于计算机编程。以上说的是如果需要我们自己编程计算的情况下，实际上这些内容以及被各种库函数做过了，我们要做的只是调用而已。

最小二乘法评价

从上面最小二乘法的推理过程中可以看到，简洁高效，一步到位。但是也有很多缺点。首先，拟合函数需要是线性的，如果不是线性，那就还需要花时间去处理数据。再有就是其计算过程，想想当初学习线性代数时，求逆矩阵得多麻烦，计算机也是一样，矩阵维度较大时，耗时也成倍上升。当然，这些缺点也有其他方法来避免，那就是用梯度下降法，即便样本量很大，也可以快速迭代，得到局部最优解。

梯度下降法

梯度，简单来说就是最大方向导数，函数沿着该方向具有最大的变化率。下面举个例子说明一下梯度下降：

如果要找到该函数中的最低点，当然沿着梯度的方向，更容易找到最低点。具体怎么去找最低点，我们会选择一个步长，先随机找到一个位置，然后沿着梯度方向按照定义的步长向前走，这样就可以逐步的找到最低点。当然，还有可能这里面不止一个最小值，有好几个凹陷下去的地方，那么按照梯度下降的方法，可能仅仅找到的局部的最优解，这就需要后续对函数的一些处理或者对步长的处理。