点击图片,查看课程详情
作者:李誉辉 四川大学在读研究生
1 概念辨析
因为误差的存在,很多时候,直接对数据点进行连线没有意义,不能清楚的反映其中的变量关系,这时候就需要数据拟合或者线性回归,
现实中,很多人都搞不清线性拟合和线性回归,加上差值和样条曲线,更是让人感觉混乱。
本文中,将带大家辨析这些概念之间的关系,并与ggplot2绘图结合进行展示。
1.1 差值
对于一组数据点,那么理论上一定存在可以通过这几个点的多项式,通常数据点越多,多项式阶数约高,这个求多项式的过程就叫差值。
但是计算机存在计算精度和误差累计,在多项式阶数过高的,通常7,8阶左右,就会出现龙格现象(Runge phenomenon), 这种现象导致数据点两端的差值偏差极大,根本没法看。 所以通常差值不会超过7,
但是现实中,数据点成百上千很正常,所以通过对数据点分段,分段进行低阶差值,就能避免龙格现象。
1.2 拟合与回归
实际中,实验测定或者统计获得的数据也是存在实验误差或者统计误差的,所以差值的方法并不实用,这就需要拟合了,
拟合就是求一条曲线,使得该曲线与数据点的趋势最接近,与差值的区别在于,拟合的曲线并不一定过数据点。 拟合中,最常用的线性拟合,但是拟合出的曲线并不一定非得是直线,通过数据变换,线性拟合也能拟合出曲线。
1.2.1 线性拟合:
超过2组数据点,求1次函数ax + b = 0,使得残差的绝对值和最小
残差:观测值(yi)与预测值(axi + b)之差,为了方便计算,通常求残差的平方和最小
计算方法:设定未知数,a和b,然后计算残差,残差平方和为a和b的表达式,对残差平方和求偏导,
设偏导均为0,得到2个a和b的2元方程,即可解出a和b的值。
1.2.2 线性回归:
线性回归是通过“极大似然估计方法”得到的,是统计学中抽样的方法得到的
得出的线性方程的系数与线性拟合相同,但是计算思路不同,误差判定方式不同
1.2.3 线性最小二乘法:
线性最小二乘法与线性拟合不同的是,不是通过残差计算的,同样设定未知量a和b,
然后带入xi和yi组成一个超顶线性方程组,其方程的个数大于未知数的个数, 设系数矩阵为A,x =t(c(a, b))
为未知量矩阵,则Ax = b
两边同时左乘A的转置矩阵,变成t(A) %*% A %*% x
=t(A) %*% b
,首先计算t(A) %*% A
和t(A) %*% b
,
因为t(A) %*% A
为2阶矩阵,所以很可能有唯一解,该解与残差平方和最小一致
1.3 样条曲线
样条差值是分段低阶差值的一种, * 2次样条:在每2个点之间求2阶多项式,并使多项式在得观测点处一阶光滑(一阶导数连续,即存在二阶导数)
* 3次样条:在每2个点之间求3阶多项式,并使多项式在得观测点处