一文速学-最小二乘法曲线拟合算法详解+项目代码_origin最小二乘法拟合

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

要从零基础了解最小二乘法,那么我们需要把支撑最小二乘法的原理和算法搞懂,首先我们要了解什么是残差。我们知道曲线拟合不要求近似曲线严格过所有的数据点,但使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到总体上尽可能最小。那么我们估计的曲线与真实点的差距就是残差。

我们设线性回归模型为Y=X\beta +\varepsilon,其中:

  • Y是有相应变量构成的n维向量
  • X是n*(p+1)阶设计矩阵
  • \betap+1维向量
  • \varepsilon是n维随机变量

回归系数的估计值\hat{\beta }=(X{T}X){-1}X^{T}Y,拟合值\hat{Y}\hat{Y}=X\hat{\beta }=X(X{T}X){-1}X^{T}Y=HY,其中:

  • H=X(X{T}X){-1}X^{T},H为帽子矩阵

则残差为\hat{\varepsilon }=y-\hat{y}=(I-H)Y

特征

在回归分析中,测定值与按回归方程预测的值之差,以\delta表示。残差\delta遵从正态分布N(0,\sigma ^{2})

\frac{\delta -\hat{\delta }}{\delta }的标准差,称为标准化残差,以\delta ^{*}表示。\delta ^{*}遵从标准正态分布N(0,1)。验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归直线拟合。

显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。

选取策略

通常我们构造拟合曲线,要使得残差\delta 尽可能的小,有3中准则可供选择,具体内容如下:

  • 残差的最大绝对值最小:max|\delta _{i}|=min
  • 残差的绝对值之和最小: \sum_{i}^{}|\delta _{i}|=min
  • 残差的平方和最小:\sum_{i}{}e_{i}{2}=min

根据三种准则的具体形式,可以分析出前两种比较简单,而二者都含有绝对值运算,实际应用中不便于操作;基于第三种准则构造的拟合曲线方法便是曲线拟合的最小二乘法。

2.最小二乘原则

定义

我们将残差的平方和最小\sum_{i}{}e_{i}{2}=min的原则称为最小二乘原则。

按照最小二乘原则选取拟合曲线的方法,称为最小二乘法。

解法总览

对于如何利用最小二乘法原则来解决问题,我们可以根据我们想要的结果来看:

在某个函数类\psi =\left { \varphi _{0}(x), \varphi _{1}(x), \varphi _{2}(x),..., \varphi _{n}(x)\right }来寻求一个函数\varphi (x).

\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x).使其满足:

\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i})-y_{i}]^{2},其中\varphi (x)=a_{0}\varphi _{0}(x)+a_{1}\varphi _{1}(x)+...+a_{n}\varphi _{n}(x)是函数类\psi中任意函数。a_{0},a_{1},a_{2}...,a_{m}是待定常数。

满足上述关系式的函数\varphi ^{*}(x)称为上述最小二乘问题的最小二乘解。

三、最小二乘解法

1.确定函数类

原则:根据实际问题域所给数据点的变化规律确定。

在实际问题中如何选择基函数是一个复杂的问题,一般要根据问题本身的性质来决定。通常可取的基函数有多项式、三角函数、指数函数。或者数据集可能本身就是一个轨迹点数据集,没有强关联的自变量因变量关系。这是要根据实际问题求解的目标调整算法。

2.求解方程

问题转化为求待定系数a_{0},a_{1},a_{2}...,a_{m}使得:

\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i}-y_{i})]^{2}

极小值原理:

S(a_{0},a_{1},...,a_{n}),那么我们知道存在极小值的情况,原函数需要存在收敛。

证明函数收敛,\sum_{i=1}{m}[\sum_{k=0}{n}a_{k}\varphi _{k}(x_{i})-f(x_{i})]^{2}则有多元函数极值必要条件有:

\frac{\partial S}{\partial a_{k}}=\sum_{i=1}^{m}\varphi _{k}(x_{i})[a_{0}\varphi _{0}(x_{i})+a_{1}\varphi _{1}(x_{i})+...+a_{n}\varphi _{n}(x_{i})-f(x_{i})]=0,其中(k=0,1,2,...,n)

a_{0}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{0}(x_{i})+a_{1}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{1}(x_{i})+...+a_{n}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{n}(x_{i})=\sum_{i=1}^{m}\varphi _{k}(x_{i})y^{i}

求解方程组

对任意函数h(x)和g(x)引入记号:

(h,g)=\sum_{i=1}^{m}h(x_{i})g(x_{i})

用向量内积形式表示,可得

a_{0}(\varphi _{k},\varphi _{0})+a_{1}(\varphi _{k},\varphi _{1})+...+a_{n}(\varphi _{k},\varphi _{n})=(\varphi _{k},f) (k=0,1,..,n)

即:\sum_{j=0}^{n}a_{j}(\varphi _{k},\varphi _{j})=(\varphi _{k},j) (k=0,1,2,...,n)

上式为求a_{0},a_{1},...,a_{n}的法方程组,其矩阵的形式为:

\begin{pmatrix} (\varphi _{0},\varphi _{0})&(\varphi _{0},\varphi _{1})&...&(\varphi _{0},\varphi _{n}) \ (\varphi _{1},\varphi _{0})&(\varphi _{1},\varphi _{1}) &...&(\varphi _{1},\varphi _{n}) \ ...&...& ...& ... \ (\varphi _{n},\varphi _{0}) & (\varphi _{n},\varphi _{1}) &...&(\varphi _{n},\varphi _{n}) \end{pmatrix}\begin{bmatrix} a_{0}\ a_{1}\ ...\ a_{n} \end{bmatrix}=\begin{bmatrix} (\varphi _{0},f)\ (\varphi _{1},f)\ ...\ (\varphi _{n},f) \end{bmatrix}

由于向量组\varphi _{0},\varphi _{1},...,\varphi _{n}是线性无关,故上式系数行列式G(\varphi _{0},\varphi _{1},...,\varphi _{n})\neq 0

存在唯一解:a_{0}{*},a_{1}{*},...,a_{n}^{*}于是得到函数f(x)的最小二乘解

\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)

故得到下列:

定理

对于给定的一组实验数据(x_{i},y_{i}),x_{i}互异。在函数类\psi =\left { \varphi _{0}(x), \varphi _{1}(x), \varphi _{2}(x),..., \varphi _{n}(x)\right }(n<m)\varphi _{0},\varphi _{1},...,\varphi _{n}线性无关,存在唯一的函数\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)使得关系式\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i}-y_{i})]^{2}成立,并且其系数a_{0}{*},a_{1}{*},...,a_{n}^{*}可以通过解法方程组得到。

特例

如取\varphi _{i}(x)=x^{i}就得到代数多项式\varphi (x)=a_{0}+a_{1}x+a_{2}x{2}+...+a_{n}x{n}

(\varphi _{j},\varphi _{k})=\sum_{i=1}{N}x_{i}{j}x_{i}{k}=\sum_{i=1}{N}x_{i}^{j+k} (j,k=0,1,..,n)

(\varphi _{j},j)=\sum_{i=1}{N}x_{i}{k}y_{i} (k=0,1,...,n)

最小二乘的法方程为:

\begin{bmatrix} \sum_{i=1}^{m}1 &\sum_{i=1}^{m}x_{i} &... &\sum_{i=1}{m}x_{i}{n} \ \sum_{i=1}^{m}x_{i} & \sum_{i=1}{m}x_{i}{2} & ... &\sum_{i=1}{m}x_{i}{n+1} \ ...& ... & ... &... \ \sum_{i=1}{m}x_{i}{n} & \sum_{i=1}{m}x_{i}{n+1} &... & \sum_{i=1}{m}x_{i}{n+n} \end{bmatrix}\begin{bmatrix} a_{0}\ a_{1}\ ...\ a_{n} \end{bmatrix}=\begin{bmatrix} \sum_{i=1}^{m}y_{i}\ \sum_{i=1}^{m}x_{i}y_{i}\ ...\ \sum_{i=1}{m}x_{i}{n}y_{i} \end{bmatrix}

四、代码实现

首先进行曲线拟合的话肯定需要数据分析三巨头pandas、numpy和绘图用的matplotlib

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

这里我们使用案例来实现最小二乘法拟合:

在某化学反应里,测得生成物浓度y(%)与时间t(min)的数据:

一般我们拿到数据都是在excel和csv,直接读取就好了:

df_metric=pd.read_excel('try_test.xlsx')
df_metric

通过绘制散点图我们很容易看出数据趋势:

x=df_metric['t']
y=df_metric['y']
plot1 = plt.plot(x, y, '*', label='origin data')
plt.title('polyfit')
plt.show()

在matplotlib库中polyfit函数可以实现多项式拟合,也就是最小二乘拟合:

# 使用polyfit方法来拟合,并选择多项式
z1 = np.polyfit(x, y, 2)
# 使用poly1d方法获得多项式系数,按照阶数由高到低排列
p1 = np.poly1d(z1)
#打印拟合多项式
print(p1)

当然如果需要精度更高可以增加系数:



![img](https://img-blog.csdnimg.cn/img_convert/42c54cd235a71d315f3d3a60ae9daf52.png)
![img](https://img-blog.csdnimg.cn/img_convert/124253ff4f5ea4ed1bb8f1c8b25b2b1f.png)
![img](https://img-blog.csdnimg.cn/img_convert/9f116631fcdeea0c69baf227517e9617.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

722967932)]
[外链图片转存中...(img-e0SqEVzj-1715722967933)]

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

曲线拟合最小二乘法是一种通过最小化误差平方和来拟合一个近似函数的方法。它是基于最小二乘原则构造的,即通过最小化实际观测值与拟合函数之间的差异来找到最佳拟合曲线最小二乘法的原理是,对给定的一组数据点,我们要找到一个函数,使得该函数与这些数据点之间的误差最小。误差可以通过计算实际观测值与拟合函数在相应点上的差异来衡量。最小二乘法的目标是找到使得误差平方和最小的函数参数。 在曲线拟合最小二乘法中,我们可以使用不同的函数形式进行拟合,如直线拟合和多项式拟合。其中,直线拟合是通过一条直线来逼近数据点,而多项式拟合则使用多项式函数来逼近数据点。 需要注意的是,曲线拟合最小二乘法并不要求满足插值原则,即不一定要经过所有的数据点。它的目标是找到一个近似函数,使得在整个数据集上的误差平方和最小化。 总结起来,曲线拟合最小二乘法是一种通过最小化误差平方和来找到一个近似函数的方法。它可以使用不同的函数形式进行拟合,并且不要求满足插值原则。通过最小二乘法,我们可以得到一个最佳拟合曲线,使得拟合函数与实际观测值之间的差异最小化。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [数值分析——曲线拟合最小二乘法](https://blog.csdn.net/weixin_45506541/article/details/127364115)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [一文速学-最小二乘法曲线拟合算法详解+项目代码](https://blog.csdn.net/master_hunter/article/details/126058212)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值