拟合、插值、回归、逼近

插值问题的提出
在许多实际问题,变量之间的函数关系是存在的,但可能表达式过于复杂或者根本不知道或不存在,使得我们在使用或计算的时候不好处理由。好在,我们也不是完全一无所知,有时候我们可以通过实验或者观测得到y=f(x)在一系列离散点xi上的函数值fi。通过这些离散的数据合理地估计在离散值中间的点应该对应的值,就叫插值法。字面上可以理解为,插入某个数据在两个有数据的离散点之间的点中。

例如,我们现在就有这样一组离散数据,它描述了一件事情,假定是两个变量之间的变化关系,它的函数我们不知道,但我们可以先假定为f(x)(一定会存在,不管多复杂都好,我们就假设他一定存在)。这个函数可能简单可能复杂,但是我们总归希望它是简单的,于是我们再假设有一个相对简单的函数P(x),这相对简单的函数目前也是未知的,它可能超级简单,可能也比较复杂,或者可能跟原函数是一模一样的,我们现在都不知道。但有一点我们一定知道也一定要服从的,就是在这些已经记录的离散点xi,i=1,2,...n中有P(xi)=f(xi)。我们把这个条件叫做插值条件P(x)叫做f(x)的插值函数,xi,i=1,2,...n叫做插值节点,xi,i=1,2,...n所在的区间,例如有a<=x1<xn<=b,n>1时,[a,b]叫做插值区间。

数据拟合
先说重点,数据拟合和插值最大的区别就是,它不要求拟合出来的函数和原函数在数据点处的值相等,而是追求一种整体上、趋势上的相似,它还用来做数据区间以外的点的分析,这种对区间外点的预测也叫作回归分析。

回归这个词最初是高尔顿研究子女身高与父母身高的相关性时提出的,意思是,子女身高相对于父母身高可能高可能低,即父母生出了比自己高的或比自己矮,但总的来说,子女的身高有向父母身高回归的趋势,例如,第一胎很高,但这可能是个例外,第二胎就比较有向父母身高回归的趋势了,或者子女较矮,但子女的子女又有向父母身高回归的趋势,而不是像它们的父母那样矮。高尔顿就把“回归”这个词引进到问题的讨论中,这就是“回归”名称的由来,逐渐背后人沿用成习,通常指针对某个均值的回归。

  1. 回归:一般指线性回归,是求最小二乘解的过程。在求回归之前,已经假设所有型值点同时满足某一曲线方程,计算只要求出该曲线方程的系数。

  2. 多项式插值:用一个多项式来近似代替数据列表函数(离散的点),并要求多项式通过列表函数中给定的数据点。(插值曲线必须经过型值点。)

  3. 多项式逼近:为复杂函数(连续的函数)寻找近似替代多项式函数,其误差在某种度量意义下最小。(逼近只要求曲线接近型值点,符合型值点的趋势。)

  4. 多项式拟合:在插值问题中考虑给定数据点的误差,只要求在用多项式近似代替列表函数时,其误差在某种度量意义下最小。

    相关概念:

列表函数:给定n+1个不同的数据点(x0,y0),(x1,y1)…,(xn,yn),称由这组数据表示的函数为列表函数。

逼近函数:求一函数,使得按某一标准,这一函数y=f(x)能最好地反映这一组数据即逼近这一列表函数,这一函数y=f(x)称为逼近函数。

插值函数:根据不同的标准,可以给出各种各样的函数,如使要求的函数y=f(x)在以上的n+1个数据点处的函数值与相应数据点的纵坐标相等,即yi=f(x1)(i=0,1,2….,n) 这种函数逼近问题称为插值问题,称函数y=f(x)为数据点的插值函数,xi称为插值点。

进一步说明:

插值和拟合都是函数逼近或者数值逼近的重要组成部分。

他们的共同点都是通过已知一些离散点集M上的约束,求取一个定义在连续集合S(M包含于S)的未知连续函数,从而达到获取整体规律的目的,即通过“窥几斑”来达到“知全豹”的过程。

简单地讲,所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λ3),使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合或者线性回归(主要用在统计中),否则叫作非线性拟合或者非线性回归。表达式也可以是分段函数,这种情况下叫作样条拟合。

而插值是指已知某函数在若干离散点上的函数值或者导数信息,通过求解该函数中待定形式的插值函数以及待定系数,使得该函数在给定离散点上满足约束。插值函数又叫作基函数,如果该基函数定义在整个定义域上,叫作全域基,否则叫作分域基。如果约束条件中只有函数值的约束,叫作Lagrange插值,否则叫作Hermite插值。

从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲面来最大限度地逼近这些点;而插值是找到一个(或几个分片光滑的)连续曲面来穿过这些点。
参考[1]

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页