一文速学-最小二乘法曲线拟合算法详解+项目代码_origin最小二乘法拟合(1)

本文详细介绍了最小二乘法曲线拟合的原理,包括残差的概念、特征和选取策略。最小二乘原则是通过最小化残差的平方和来寻找拟合曲线。文中还探讨了如何确定函数类并求解方程,提供了具体的数学证明和代码实现示例,适用于数据科学和机器学习领域的实践。
摘要由CSDN通过智能技术生成
原理

要从零基础了解最小二乘法,那么我们需要把支撑最小二乘法的原理和算法搞懂,首先我们要了解什么是残差。我们知道曲线拟合不要求近似曲线严格过所有的数据点,但使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到总体上尽可能最小。那么我们估计的曲线与真实点的差距就是残差。

我们设线性回归模型为Y=X\beta +\varepsilon,其中:

  • Y是有相应变量构成的n维向量
  • X是n*(p+1)阶设计矩阵
  • \betap+1维向量
  • \varepsilon是n维随机变量

回归系数的估计值\hat{\beta }=(X{T}X){-1}X^{T}Y,拟合值\hat{Y}\hat{Y}=X\hat{\beta }=X(X{T}X){-1}X^{T}Y=HY,其中:

  • H=X(X{T}X){-1}X^{T},H为帽子矩阵

则残差为\hat{\varepsilon }=y-\hat{y}=(I-H)Y

特征

在回归分析中,测定值与按回归方程预测的值之差,以\delta表示。残差\delta遵从正态分布N(0,\sigma ^{2})

\frac{\delta -\hat{\delta }}{\delta }的标准差,称为标准化残差,以\delta ^{*}表示。\delta ^{*}遵从标准正态分布N(0,1)。验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归直线拟合。

显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。

选取策略

通常我们构造拟合曲线,要使得残差\delta 尽可能的小,有3中准则可供选择,具体内容如下:

  • 残差的最大绝对值最小:max|\delta _{i}|=min
  • 残差的绝对值之和最小: \sum_{i}^{}|\delta _{i}|=min
  • 残差的平方和最小:\sum_{i}{}e_{i}{2}=min

根据三种准则的具体形式,可以分析出前两种比较简单,而二者都含有绝对值运算,实际应用中不便于操作;基于第三种准则构造的拟合曲线方法便是曲线拟合的最小二乘法。

2.最小二乘原则

定义

我们将残差的平方和最小\sum_{i}{}e_{i}{2}=min的原则称为最小二乘原则。

按照最小二乘原则选取拟合曲线的方法,称为最小二乘法。

解法总览

对于如何利用最小二乘法原则来解决问题,我们可以根据我们想要的结果来看:

在某个函数类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值