最小二乘法求解的问题（Ordinary Least Squares）

qq_33009429

已于 2024-04-21 17:33:13 修改

阅读量1k

点赞数 21

分类专栏：机器学习算法文章标签：最小二乘法算法人工智能

于 2024-01-28 08:55:39 首次发布

本文链接：https://blog.csdn.net/qq_33009429/article/details/135891530

版权

机器学习算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、最小二乘法要解决的问题

在工程应用中，我们经常会用一组观测数据去估计模型的参数，其中模型是我们根据先验知识定下的。比如我们有一组观测数据( xi , yi ) （一维），通过一些数据分析我们猜测y和x之间存在线性关系，那么我们的模型就可以定为：

f(x)=kx+b

这个模型只有两个参数k和b，所以理论上，我们只需要观测两组数据建立两个方程，即可解出两个未知数。类似的，假如模型有n个参数，我们只需要观测n组数据就可求出参数，换句话说，在这种情况下，模型的参数是唯一确定解。

但是在实际应用中，由于我们的观测会存在误差（系统误差等），所以我们总会做多余观测。比如在上述例子中，尽管只有两个参数，但是我们可能会观测n组数据(x1,y1) . . ., (xn,yn )，这会导致我们无法找到一条直线经过所有的点，也就是说，方程无确定解。

于是这就是我们要解决的问题：虽然没有确定解，但是我们能不能求出近似解，使得模型能在各个观测点上达到“最佳“拟合。那么“最佳”的准则是什么？可以是所有观测点到直线的距离和最小，也可以是所有观测点到直线的误差（真实值-理论值）绝对值和最小，也可以是其它，如果是你面临这个问题你会怎么做？

早在19世纪，勒让德就认为让“误差的平方和最小”估计出来的模型是最接近真实情形的”。为什么就是误差平方而不是其它的，这个问题连欧拉、拉普拉斯都未能成功回答，后来是高斯建立了一套误差分析理论，从而证明了确实是使误差平方和最小的情况下系统是最优的（详见著名的高斯-马尔可夫（ Gauss-Markov）定理，即最小二乘法有效性）。

按照勒让德的最佳原则，于是就是求：

这个目标函数取得最小值时的函数参数，这就是最小二乘法的思想，所谓“二乘”就是平方的意思。从这里我们可以看到，最小二乘法其实就是用来做函数拟合的一种思想。
（原文链接：https://blog.csdn.net/MoreAction_/article/details/106443383）

二、最小二乘法概述

1.基本思想

通过最小化误差的平方和寻找数据的最佳函数匹配，利用最小二乘法可以求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

目标函数 = ∑ (观测值 – 理论值)²

「最小二乘法」是对过度确定系统（存在比未知数更多的方程组），以回归分析求得近似解的标准方法，在整体解决方案中，最小二乘法演算为各方程式的结果，并将残差平方和的总和最小化。

2.应用

在误差估计、曲线拟合、参数估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

（1）数据拟合：最小二乘法可以用于将一组实验数据拟合到一个数学模型或曲线上，从而找到最优参数。例如，在物理学中，可以使用最小二乘法来拟合实验数据与理论模型之间的关系，从而确定物理定律的参数。

（2）回归分析：最小二乘法可用于回归分析，即通过已知自变量和因变量的数据，建立一个数学模型，预测未知数据点的取值。回归分析可以应用于各个领域，如经济学中的经济预测、医学研究中的疾病预测等。

（3）曲线拟合：最小二乘法可用于拟合数据点到一条曲线上，从而找到最优的曲线方程。这在工程学和自然科学中非常常见，如信号处理中的滤波器设计、地理学中的地貌分析等。

最小二乘法用于解决曲线拟合问题的基本思路

令，

其中，是事先选定的一组线性无关的函数，是待定系数，拟合准则是使与的距离的平方和最小，称为最小二乘准则。

最小平方问题根据所有未知数中的残差 (观测值与模型提供的拟合值之间的差距)是否为线性，通常分为线性最小二乘法和非线性最小二乘法两种。

线性最小平方问题通常出现在统计回归分析中，其有一个封闭形式的解决方案；

非线性问题通常经由迭代细致化解决，每次迭代中系统有线性近似，故这两种情况下核心演算是相同的。

当观测值来自指数族且满足轻度条件时，最小平方估计和最大似然估计相同。

一般来说。曲线拟合的任务有两个：
1.当变量间的函数关系已知，只是其中的常数未知，根据数据点拟合出各常数的最佳估计值。
2.当变量间的函数关系未知，根据数据点拟合出变量间函数关系的经验公式，并求出其中各常数的最佳估计值。

对于一个实际的曲线拟合问题，通常的做法是将观测值在二维坐标平面上画出散点图，观察散点图的分布和哪类曲线图接近，然后选用相应的曲线拟合方程，对于有些非线性拟合曲线可以通过适当的变量替换转化为线性拟合曲线，按照线性拟合进行处理，这样会简便一些，下图列举了一些常见的变换：

（4）参数估计：最小二乘法可用于估计数学模型中的未知参数。通过将观测数据与数学模型进行比较，可以找到最优参数值。这在统计学中的参数估计、金融学中的风险评估等领域有广泛应用。

（5）噪声滤除：最小二乘法可以过滤掉数据中的噪声，提取出真实的信号。通过将观测数据与噪声模型进行对比，可以估计出噪声的特征，并用最小二乘法进行滤波处理，得到更干净和可靠的信号。

3.最小二乘估计量的特性

根据样本数据，采用最小二乘估计式可以得到简单线性回归模型参数的估计量。但是估计量参数与总体真实参数的接近程度如何，是否存在更好的其它估计式，这就涉及到最小二乘估计式或估计量的最小方差（或最佳）（Best）性、线性（Linear）及无偏（Unbiased）性，简称为BLU特性。

（1）线性特性

所谓线性特性，是指估计量分别是样本观测值的线性函数，亦即估计量和观测值的线性组合。

（2）无偏性

所谓无偏性，是指参数估计量的期望值分别等于总体真实参数。

（3）最小方差性

所谓最小方差性（又称有效性），是指估计量与用其它方法求得的估计量比较，其方差最小，即最佳。这一性质就是著名的高斯-马尔可夫（ Gauss-Markov）定理。这个定理阐明了普通最小二乘估计量与用其它方法求得的任何线性无偏估计量相比，它是最佳的。

4.最小二乘法的优势与局限性

优势：最小二乘法原理简单、收敛速度较快、易于理解和实现。

局限性：当问题在自变量有较大不确定性时，使用简易回归和最小二乘法会发生问题，这种情况下须另外考虑变量 – 误差 – 拟合模型所需的方法，而非最小二乘法。

最小二乘法估计，通常假定了误差服从正态分布，认为样本误差的出现是随机的，独立的，使用最大似然估计思想，利用损失函数最小化MSE就能求出最优解。所以若数据误差不是互相独立的，或者不是随机出现的，那么就不适合去假设为正态分布，就不能去用正态分布的概率密度函数带入到总似然的函数中，故而就不能用MSE作为损失函数去求解最优解了。所以，最小二乘法不是万能的~还有譬如假设误差服从泊松分布，或其他分布那就得用其他分布的率密度函数去推导出损失函数了！
所以有时我们也可以把线性回归看成是广义线性回归。比如，逻辑回归，泊松回归都属于广义线性回归的一种，这里我们线性回归可以说是最小二乘线性回归。

至于怎么求出具体的参数那就是另外一个问题了，理论上可以用导数法、几何法，工程上可以用梯度下降法。

三、最小二乘法应用及代码

在讲解各种优化方法之前，首先对优化方法的类型做一个大概介绍，参考《Numerical Optimization》所述和上述介绍，可以发现一个共同点，均需要给出一个初始值，从这个初始值开始，寻找一个变化量(增量 Δ�� )，使得代价函数逐渐下降，然后达到最优。可以发现，在整个过程中，如何寻找增量是其最重要的步骤。增量是一个向量，涉及到大小和方向，也就是说，我们需要将大小和方向都确定后，才能进行迭代计算。纵观优化算法领域发展历程，均是在围绕如何求解出合理的增量，因而衍生出两种策略：线性搜索方法和信赖域方法。

1.线性搜索方法(Line Search Method)

线性搜索方法的总体策略是：先确定优化变量的更新方向，然后在该方向上确定一个能使代价函数下降最大的步长。那如何确定其方向呢？这里先不做具体展开讲解，在后面的梯度下降法、牛顿法、共轭梯度法以及高斯牛顿法等等详细说明，这些方法都充分利用到了函数的一阶梯度和二阶梯度信息。

关注

21
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
最小二乘法求解的问题（Ordinary Least Squares）

通过最小化误差的平方和寻找数据的最佳函数匹配，利用最小二乘法可以求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。目标函数 = ∑ (观测值 – 理论值)²「最小二乘法」是对过度确定系统（存在比未知数更多的方程组），以回归分析求得近似解的标准方法，在整体解决方案中，最小二乘法演算为各方程式的结果，并将残差平方和的总和最小化。
复制链接

扫一扫