一文速学-最小二乘法曲线拟合算法详解+项目代码_origin最小二乘法拟合

最新推荐文章于 2024-10-08 21:43:50 发布

2401_84586462

最新推荐文章于 2024-10-08 21:43:50 发布

阅读量1k

点赞数 8

分类专栏：程序员文章标签：大数据面试学习

原文链接：https://blog.csdn.net/master_hunter/article/details/126058212

版权

程序员专栏收录该内容

57 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

前言

我们知道一般都是从多个点来画出直线，那么如果点的排列并非能够用一条直线来拟合，但是又需要找到这样一条线来拟合多个坐标轴上面的点，那么一般都是采用曲线进行拟合。但是如何在众多密集且离散的分布点中找到一条曲线来尽可能多的去拟合多个点呢？这就需要我们采取相应的算法或者策略。

我们需要使这条直线到各个数据点之间的误差最小且更可能的逼近，那么宏观来看该算法应该是全局最优算法，所以根据此我们使用最小二乘法来拟合离散的点尽可能使这些数据点均在离此曲线的上方或下方不远处。它既能反映数据的总体分布，又不至于出现局部较大的波动。我们现在我们来从零开始探索该算法。

本篇博客的愿景是希望我或者读者通过阅读这篇博客能够学会方法并能实际运用，而且能够记录到你的思想之中。希望读者看完能够提出错误或者看法，博主会长期维护博客做及时更新。

一、曲线拟合策略

在工程实际应用和科学实验中通过测量得到的一组离散的数据点，为了从中找到两个变量中间的内在规律性，也就是求自变量和因变量之间的近似程度比较好的函数关系式，这类问题有插值法和曲线拟合法。这类问题的插值法和曲线拟合法，当个别数据的误差较大时，插值效果显然是不理想的，而且实验或观测提供的数据个数往往较多，用插值法势必得到次数较高的插值多项式，会出现龙格现象。这时候最优策略就是选择曲线拟合策略了。

我们从数据出发构造一个近似函数，只要求所得的近似曲线能反映数据的基本趋势，使求得的逼近函数与已知函数从总体上来说偏差的平方和最小，这就是最小二乘法。

二、最小二乘法理论基础

1.残差

原理

要从零基础了解最小二乘法，那么我们需要把支撑最小二乘法的原理和算法搞懂，首先我们要了解什么是残差。我们知道曲线拟合不要求近似曲线严格过所有的数据点，但使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到总体上尽可能最小。那么我们估计的曲线与真实点的差距就是残差。

我们设线性回归模型为 $Y=X\beta +\varepsilon$ ，其中：

Y是有相应变量构成的n维向量
X是 $n*(p+1)$ 阶设计矩阵
$\beta$ 是 $p+1$ 维向量
$\varepsilon$ 是n维随机变量

回归系数的估计值 $\hat{\beta }=(X{T}X){-1}X^{T}Y$ ,拟合值 $\hat{Y}$ 为 $\hat{Y}=X\hat{\beta }=X(X{T}X){-1}X^{T}Y=HY$ ,其中：

$H=X(X{T}X){-1}X^{T}$ ,H为帽子矩阵

则残差为 $\hat{\varepsilon }=y-\hat{y}=(I-H)Y$ 。

特征

在回归分析中，测定值与按回归方程预测的值之差，以 $\delta$ 表示。残差 $\delta$ 遵从正态分布 $N(0,\sigma ^{2})$ 。

$\frac{\delta -\hat{\delta }}{\delta }$ 的标准差，称为标准化残差，以 $\delta ^{*}$ 表示。 $\delta ^{*}$ 遵从标准正态分布 $N(0,1)$ 。验点的标准化残差落在(-2，2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2，2)区间以外，可在95%置信度将其判为异常实验点，不参与回归直线拟合。

显然，有多少对数据，就有多少个残差。残差分析就是通过残差所提供的信息，分析出数据的可靠性、周期性或其它干扰。

选取策略

通常我们构造拟合曲线，要使得残差 $\delta$ 尽可能的小，有3中准则可供选择，具体内容如下：

残差的最大绝对值最小： $max|\delta _{i}|=min$
残差的绝对值之和最小: $\sum_{i}^{}|\delta _{i}|=min$
残差的平方和最小： $\sum_{i}{}e_{i}{2}=min$

根据三种准则的具体形式，可以分析出前两种比较简单，而二者都含有绝对值运算，实际应用中不便于操作；基于第三种准则构造的拟合曲线方法便是曲线拟合的最小二乘法。

2.最小二乘原则

定义

我们将残差的平方和最小 $\sum_{i}{}e_{i}{2}=min$ 的原则称为最小二乘原则。

按照最小二乘原则选取拟合曲线的方法，称为最小二乘法。

解法总览

对于如何利用最小二乘法原则来解决问题，我们可以根据我们想要的结果来看：

在某个函数类 $\psi =\left { \varphi _{0}(x), \varphi _{1}(x), \varphi _{2}(x),..., \varphi _{n}(x)\right }$ 来寻求一个函数 $\varphi (x)$ .

$\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)$ .使其满足：

$\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i})-y_{i}]^{2}$ ，其中 $\varphi (x)=a_{0}\varphi _{0}(x)+a_{1}\varphi _{1}(x)+...+a_{n}\varphi _{n}(x)$ 是函数类 $\psi$ 中任意函数。 $a_{0},a_{1},a_{2}...,a_{m}$ 是待定常数。

满足上述关系式的函数 $\varphi ^{*}(x)$ 称为上述最小二乘问题的最小二乘解。

三、最小二乘解法

1.确定函数类

原则：根据实际问题域所给数据点的变化规律确定。

在实际问题中如何选择基函数是一个复杂的问题，一般要根据问题本身的性质来决定。通常可取的基函数有多项式、三角函数、指数函数。或者数据集可能本身就是一个轨迹点数据集，没有强关联的自变量因变量关系。这是要根据实际问题求解的目标调整算法。

2.求解方程

问题转化为求待定系数 $a_{0},a_{1},a_{2}...,a_{m}$ 使得：

$\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i}-y_{i})]^{2}$

极小值原理：

记 $S(a_{0},a_{1},...,a_{n})$ ,那么我们知道存在极小值的情况，原函数需要存在收敛。

证明函数收敛， $\sum_{i=1}{m}[\sum_{k=0}{n}a_{k}\varphi _{k}(x_{i})-f(x_{i})]^{2}$ 则有多元函数极值必要条件有：

$\frac{\partial S}{\partial a_{k}}=\sum_{i=1}^{m}\varphi _{k}(x_{i})[a_{0}\varphi _{0}(x_{i})+a_{1}\varphi _{1}(x_{i})+...+a_{n}\varphi _{n}(x_{i})-f(x_{i})]=0$ ,其中 $(k=0,1,2,...,n)$

$a_{0}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{0}(x_{i})+a_{1}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{1}(x_{i})+...+a_{n}\sum_{i=1}^{m}\varphi _{k}(x_{i})\varphi _{n}(x_{i})=\sum_{i=1}^{m}\varphi _{k}(x_{i})y^{i}$

求解方程组

对任意函数h(x)和g(x)引入记号：

$(h,g)=\sum_{i=1}^{m}h(x_{i})g(x_{i})$

用向量内积形式表示，可得

$a_{0}(\varphi _{k},\varphi _{0})+a_{1}(\varphi _{k},\varphi _{1})+...+a_{n}(\varphi _{k},\varphi _{n})=(\varphi _{k},f) (k=0,1,..,n)$

即： $\sum_{j=0}^{n}a_{j}(\varphi _{k},\varphi _{j})=(\varphi _{k},j) (k=0,1,2,...,n)$

上式为求 $a_{0},a_{1},...,a_{n}$ 的法方程组，其矩阵的形式为：

$\begin{pmatrix} (\varphi _{0},\varphi _{0})&(\varphi _{0},\varphi _{1})&...&(\varphi _{0},\varphi _{n}) \ (\varphi _{1},\varphi _{0})&(\varphi _{1},\varphi _{1}) &...&(\varphi _{1},\varphi _{n}) \ ...&...& ...& ... \ (\varphi _{n},\varphi _{0}) & (\varphi _{n},\varphi _{1}) &...&(\varphi _{n},\varphi _{n}) \end{pmatrix}$ $\begin{bmatrix} a_{0}\ a_{1}\ ...\ a_{n} \end{bmatrix}$ $=\begin{bmatrix} (\varphi _{0},f)\ (\varphi _{1},f)\ ...\ (\varphi _{n},f) \end{bmatrix}$

由于向量组 $\varphi _{0},\varphi _{1},...,\varphi _{n}$ 是线性无关，故上式系数行列式 $G(\varphi _{0},\varphi _{1},...,\varphi _{n})\neq 0$

存在唯一解： $a_{0}{*},a_{1}{*},...,a_{n}^{*}$ 于是得到函数 $f(x)$ 的最小二乘解

$\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)$

故得到下列：

定理

对于给定的一组实验数据 $(x_{i},y_{i})$ , $x_{i}$ 互异。在函数类 $\psi =\left { \varphi _{0}(x), \varphi _{1}(x), \varphi _{2}(x),..., \varphi _{n}(x)\right }$ ， $(n<m)$ 且 $\varphi _{0},\varphi _{1},...,\varphi _{n}$ 线性无关，存在唯一的函数 $\varphi {*}(x)=a_{0}{*}\varphi _{0}(x)+a_{1}^{*}\varphi _{1}(x)+...+a_{n}^{*}\varphi _{n}(x)$ 使得关系式 $\sum_{i=1}^{m}[\varphi {*}(x_{i})-y_{i}]{2}=\underset{\varphi (x)\epsilon \psi }{min}\sum_{i=1}^{m}[\varphi (x_{i}-y_{i})]^{2}$ 成立，并且其系数 $a_{0}{*},a_{1}{*},...,a_{n}^{*}$ 可以通过解法方程组得到。

特例

如取 $\varphi _{i}(x)=x^{i}$ 就得到代数多项式 $\varphi (x)=a_{0}+a_{1}x+a_{2}x{2}+...+a_{n}x{n}$

$(\varphi _{j},\varphi _{k})=\sum_{i=1}{N}x_{i}{j}x_{i}{k}=\sum_{i=1}{N}x_{i}^{j+k} (j,k=0,1,..,n)$

$(\varphi _{j},j)=\sum_{i=1}{N}x_{i}{k}y_{i} (k=0,1,...,n)$

最小二乘的法方程为：

$\begin{bmatrix} \sum_{i=1}^{m}1 &\sum_{i=1}^{m}x_{i} &... &\sum_{i=1}{m}x_{i}{n} \ \sum_{i=1}^{m}x_{i} & \sum_{i=1}{m}x_{i}{2} & ... &\sum_{i=1}{m}x_{i}{n+1} \ ...& ... & ... &... \ \sum_{i=1}{m}x_{i}{n} & \sum_{i=1}{m}x_{i}{n+1} &... & \sum_{i=1}{m}x_{i}{n+n} \end{bmatrix}$ $\begin{bmatrix} a_{0}\ a_{1}\ ...\ a_{n} \end{bmatrix}$ $=$ $\begin{bmatrix} \sum_{i=1}^{m}y_{i}\ \sum_{i=1}^{m}x_{i}y_{i}\ ...\ \sum_{i=1}{m}x_{i}{n}y_{i} \end{bmatrix}$

四、代码实现

首先进行曲线拟合的话肯定需要数据分析三巨头pandas、numpy和绘图用的matplotlib

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

这里我们使用案例来实现最小二乘法拟合：

在某化学反应里，测得生成物浓度y（%）与时间t（min）的数据:

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

2401_84586462

关注

8
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录