我们从数据出发构造一个近似函数,只要求所得的近似曲线能反映数据的基本趋势,使求得的逼近函数与已知函数从总体上来说偏差的平方和最小,这就是最小二乘法。
二、最小二乘法理论基础
1.残差
原理
要从零基础了解最小二乘法,那么我们需要把支撑最小二乘法的原理和算法搞懂,首先我们要了解什么是残差。我们知道曲线拟合不要求近似曲线严格过所有的数据点,但使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到总体上尽可能最小。那么我们估计的曲线与真实点的差距就是残差。
我们设线性回归模型为,其中:
- Y是有相应变量构成的n维向量
- X是
阶设计矩阵
是
维向量
是n维随机变量
回归系数的估计值,拟合值
为
,其中:
,H为帽子矩阵
则残差为。
特征
在回归分析中,测定值与按回归方程预测的值之差,以表示。残差
遵从正态分布
。
的标准差,称为标准化残差,以
表示。
遵从标准正态分布
。验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归直线拟合。
显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。
选取策略
通常我们构造拟合曲线,要使得残差 尽可能的小,有3中准则可供选择,具体内容如下:
- 残差的最大绝对值最小:
- 残差的绝对值之和最小:
- 残差的平方和最小:
根据三种准则的具体形式,可以分析出前两种比较简单,而二者都含有绝对值运算,实际应用中不便于操作;基于第三种准则构造的拟合曲线方法便是曲线拟合的最小二乘法。
2.最小二乘原则
定义
我们将残差的平方和最小的原则称为最小二乘原则。
按照最小二乘原则选取拟合曲线的方法,称为最小二乘法。
解法总览
对于如何利用最小二乘法原则来解决问题,我