【机器学习】最小二乘法

最新推荐文章于 2024-07-13 22:40:19 发布

sdbhewfoqi

最新推荐文章于 2024-07-13 22:40:19 发布

阅读量2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_31866177/article/details/88421375

版权

机器学习专栏收录该内容

72 篇文章 25 订阅

订阅专栏

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。
对于平面中的这n个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小
最小二乘法也是一种优化方法，求得目标函数的最优值。并且也可以用于曲线拟合，来解决回归问题。回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以著名的最小二乘法来解决。

1、常用到的最小二乘场合：最小二乘法直线拟合，最小二乘法多项式（曲线）拟合，机器学习中线性回归的最小二乘法，系统辨识中的最小二乘辨识法，参数估计中的最小二乘法，等等。就是线性回归！

监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。

2、为什么用最小二乘：相比于绝对值的方法，平方和的方法可以得到更短的距离，使得拟合函数更接近于目标函数。从范数的角度考虑这个问题，绝对值对应的是1范数，最小二乘对应的就是2范数。

3、和梯度下降法比较

最小二乘法跟梯度下降法都是通过求导来求损失函数的最小值，那它们有什么区别呢。

相同点
　　1.本质相同：两种方法都是在给定已知数据（independent & dependent variables）的前提下对独立变量算出一个一般性的估值函数。然后对给定新数据的独立变量进行估算。
　　2.目标相同：都是在已知数据的框架内，使得估算值与实际值的总平方差尽量更小，估算值与实际值的总平方差的公式为：

$\Delta =\frac{1}{2} \sum_{i=1}^{m}{(f_{\beta }(\bar{x_{i}} )-y_{i})^{2} }$

其中 $\bar{x_{i} }$ 为第i组数据的独立变量independent variable， $y_{i}$ 为第i组数据的独立变量dependent variable， $\beta$ 为系数向量。

不同点：

实现方法和结果不同：最小二乘法是直接对 $\Delta$ 求导找出全局最小，是非迭代法（但是当 $X^{T}X$ 的逆无法求得时，方程无解，则最小二乘法不可用）。
梯度下降法是一种迭代法，先给定一个 $\Delta$ ，然后向 $\beta$ 下降最快的方向调整 $\beta$ ，在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢，并且对初始点的选择极为敏感，其改进大多是在这两方面下功夫。