一文速学-最小二乘法曲线拟合算法详解+项目代码_origin最小二乘法拟合

最新推荐文章于 2024-08-10 15:11:50 发布

2401_84166396

最新推荐文章于 2024-08-10 15:11:50 发布

阅读量947

点赞数 9

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84166396/article/details/138885569

版权

程序员专栏收录该内容

184 篇文章 1 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

要从零基础了解最小二乘法，那么我们需要把支撑最小二乘法的原理和算法搞懂，首先我们要了解什么是残差。我们知道曲线拟合不要求近似曲线严格过所有的数据点，但使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到总体上尽可能最小。那么我们估计的曲线与真实点的差距就是残差。

我们设线性回归模型为 $Y=X\beta +\varepsilon$ ，其中：

Y是有相应变量构成的n维向量
X是 $n*(p+1)$ 阶设计矩阵
$\beta$ 是 $p+1$ 维向量
$\varepsilon$ 是n维随机变量

回归系数的估计值 $\hat{\beta }=(X{T}X){-1}X^{T}Y$ ,拟合值 $\hat{Y}$ 为 $\hat{Y}=X\hat{\beta }=X(X{T}X){-1}X^{T}Y=HY$ ,其中：

$H=X(X{T}X){-1}X^{T}$ ,H为帽子矩阵

则残差为 $\hat{\varepsilon }=y-\hat{y}=(I-H)Y$ 。

特征

在回归分析中，测定值与按回归方程预测的值之差，以 $\delta$ 表示。残差 $\delta$ 遵从正态分布 $N(0,\sigma ^{2})$ 。

$\frac{\delta -\hat{\delta }}{\delta }$ 的标准差，称为标准化残差，以 $\delta ^{*}$ 表示。 $\delta ^{*}$ 遵从标准正态分布 $N(0,1)$ 。验点的标准化残差落在(-2，2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2，2)区间以外，可在95%置信度将其判为异常实验点，不参与回归直线拟合。

显然，有多少对数据，就有多少个残差。残差分析就是通过残差所提供的信息，分析出数据的可靠性、周期性或其它干扰。

选取策略

通常我们构造拟合曲线，要使得残差 $\delta$ 尽可能的小，有3中准则可供选择，具体内容如下：

残差的最大绝对值最小： $max|\delta _{i}|=min$
残差的绝对值之和最小: $\sum_{i}^{}|\delta _{i}|=min$
残差的平方和最小： $\sum_{i}{}e_{i}{2}=min$

根据三种准则的具体形式，可以分析出前两种比较简单，而二者都含有绝对值运算，实际应用中不便于操作；基于第三种准则构造的拟合曲线方法便是曲线拟合的最小二乘法。

2.最小二乘原则

定义

我们将残差的平方和最小 $\sum_{i}{}e_{i}{2}=min$ 的原则称为最小二乘原则。

按照最小二乘原则选取拟合曲线的方法，称为最小二乘法。

解法总览

对于如何利用最小二乘法原则来解决问题，我们可以根据我们想要的结果来看：

在某个函数类 $\psi =\left { \varphi _{0}(x), \varphi _{1}(x), \varphi _{2}(x),..., \varphi _{n}(x)\right }$ 来寻求一个函数 $\varphi (x)$ .

$\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)$ .使其满足：

$\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i})-y_{i}]^{2}$ ，其中 $\varphi (x)=a_{0}\varphi _{0}(x)+a_{1}\varphi _{1}(x)+...+a_{n}\varphi _{n}(x)$ 是函数类 $\psi$ 中任意函数。 $a_{0},a_{1},a_{2}...,a_{m}$ 是待定常数。

满足上述关系式的函数 $\varphi ^{*}(x)$ 称为上述最小二乘问题的最小二乘解。

三、最小二乘解法

1.确定函数类

原则：根据实际问题域所给数据点的变化规律确定。

在实际问题中如何选择基函数是一个复杂的问题，一般要根据问题本身的性质来决定。通常可取的基函数有多项式、三角函数、指数函数。或者数据集可能本身就是一个轨迹点数据集，没有强关联的自变量因变量关系。这是要根据实际问题求解的目标调整算法。

2.求解方程

问题转化为求待定系数 $a_{0},a_{1},a_{2}...,a_{m}$ 使得：

$\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i}-y_{i})]^{2}$

极小值原理：

记 $S(a_{0},a_{1},...,a_{n})$ ,那么我们知道存在极小值的情况，原函数需要存在收敛。

证明函数收敛， $\sum_{i=1}{m}[\sum_{k=0}{n}a_{k}\varphi _{k}(x_{i})-f(x_{i})]^{2}$ 则有多元函数极值必要条件有：

$\frac{\partial S}{\partial a_{k}}=\sum_{i=1}^{m}\varphi _{k}(x_{i})[a_{0}\varphi _{0}(x_{i})+a_{1}\varphi _{1}(x_{i})+...+a_{n}\varphi _{n}(x_{i})-f(x_{i})]=0$ ,其中 $(k=0,1,2,...,n)$

$a_{0}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{0}(x_{i})+a_{1}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{1}(x_{i})+...+a_{n}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{n}(x_{i})=\sum_{i=1}^{m}\varphi _{k}(x_{i})y^{i}$

求解方程组

对任意函数h(x)和g(x)引入记号：

$(h,g)=\sum_{i=1}^{m}h(x_{i})g(x_{i})$

用向量内积形式表示，可得

$a_{0}(\varphi _{k},\varphi _{0})+a_{1}(\varphi _{k},\varphi _{1})+...+a_{n}(\varphi _{k},\varphi _{n})=(\varphi _{k},f) (k=0,1,..,n)$

即： $\sum_{j=0}^{n}a_{j}(\varphi _{k},\varphi _{j})=(\varphi _{k},j) (k=0,1,2,...,n)$

上式为求 $a_{0},a_{1},...,a_{n}$ 的法方程组，其矩阵的形式为：

$\begin{pmatrix} (\varphi _{0},\varphi _{0})&(\varphi _{0},\varphi _{1})&...&(\varphi _{0},\varphi _{n}) \ (\varphi _{1},\varphi _{0})&(\varphi _{1},\varphi _{1}) &...&(\varphi _{1},\varphi _{n}) \ ...&...& ...& ... \ (\varphi _{n},\varphi _{0}) & (\varphi _{n},\varphi _{1}) &...&(\varphi _{n},\varphi _{n}) \end{pmatrix}$ $\begin{bmatrix} a_{0}\ a_{1}\ ...\ a_{n} \end{bmatrix}$ $=\begin{bmatrix} (\varphi _{0},f)\ (\varphi _{1},f)\ ...\ (\varphi _{n},f) \end{bmatrix}$

由于向量组 $\varphi _{0},\varphi _{1},...,\varphi _{n}$ 是线性无关，故上式系数行列式 $G(\varphi _{0},\varphi _{1},...,\varphi _{n})\neq 0$

存在唯一解： $a_{0}{*},a_{1}{*},...,a_{n}^{*}$ 于是得到函数 $f(x)$ 的最小二乘解

$\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)$

故得到下列：

定理

对于给定的一组实验数据 $(x_{i},y_{i})$ , $x_{i}$ 互异。在函数类 $\psi =\left { \varphi _{0}(x), \varphi _{1}(x), \varphi _{2}(x),..., \varphi _{n}(x)\right }$ ， $(n<m)$ 且 $\varphi _{0},\varphi _{1},...,\varphi _{n}$ 线性无关，存在唯一的函数 $\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)$ 使得关系式 $\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i}-y_{i})]^{2}$ 成立，并且其系数 $a_{0}{*},a_{1}{*},...,a_{n}^{*}$ 可以通过解法方程组得到。

特例

如取 $\varphi _{i}(x)=x^{i}$ 就得到代数多项式 $\varphi (x)=a_{0}+a_{1}x+a_{2}x{2}+...+a_{n}x{n}$

$(\varphi _{j},\varphi _{k})=\sum_{i=1}{N}x_{i}{j}x_{i}{k}=\sum_{i=1}{N}x_{i}^{j+k} (j,k=0,1,..,n)$

$(\varphi _{j},j)=\sum_{i=1}{N}x_{i}{k}y_{i} (k=0,1,...,n)$

最小二乘的法方程为：

$\begin{bmatrix} \sum_{i=1}^{m}1 &\sum_{i=1}^{m}x_{i} &... &\sum_{i=1}{m}x_{i}{n} \ \sum_{i=1}^{m}x_{i} & \sum_{i=1}{m}x_{i}{2} & ... &\sum_{i=1}{m}x_{i}{n+1} \ ...& ... & ... &... \ \sum_{i=1}{m}x_{i}{n} & \sum_{i=1}{m}x_{i}{n+1} &... & \sum_{i=1}{m}x_{i}{n+n} \end{bmatrix}$ $\begin{bmatrix} a_{0}\ a_{1}\ ...\ a_{n} \end{bmatrix}$ $=$ $\begin{bmatrix} \sum_{i=1}^{m}y_{i}\ \sum_{i=1}^{m}x_{i}y_{i}\ ...\ \sum_{i=1}{m}x_{i}{n}y_{i} \end{bmatrix}$

四、代码实现

首先进行曲线拟合的话肯定需要数据分析三巨头pandas、numpy和绘图用的matplotlib

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

这里我们使用案例来实现最小二乘法拟合：

在某化学反应里，测得生成物浓度y（%）与时间t（min）的数据:

一般我们拿到数据都是在excel和csv，直接读取就好了：

df_metric=pd.read_excel('try_test.xlsx')
df_metric

通过绘制散点图我们很容易看出数据趋势：

x=df_metric['t']
y=df_metric['y']
plot1 = plt.plot(x, y, '*', label='origin data')
plt.title('polyfit')
plt.show()

在matplotlib库中polyfit函数可以实现多项式拟合，也就是最小二乘拟合：

# 使用polyfit方法来拟合,并选择多项式
z1 = np.polyfit(x, y, 2)
# 使用poly1d方法获得多项式系数,按照阶数由高到低排列
p1 = np.poly1d(z1)
#打印拟合多项式
print(p1)

当然如果需要精度更高可以增加系数：



![img](https://img-blog.csdnimg.cn/img_convert/42c54cd235a71d315f3d3a60ae9daf52.png)
![img](https://img-blog.csdnimg.cn/img_convert/124253ff4f5ea4ed1bb8f1c8b25b2b1f.png)
![img](https://img-blog.csdnimg.cn/img_convert/9f116631fcdeea0c69baf227517e9617.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

722967932)]
[外链图片转存中...(img-e0SqEVzj-1715722967933)]

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**