前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?
从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i)建立因变量 y 与自变量 x_1 , x_2 ,… , x_m 之间的回归模型(经验公式); (ii)对回归模型的可信度进行检验;
(iii)判断每个自变量 x_i (i =1,2,… ,m) 对 y 的影响是否显著;
(iv)诊断回归模型是否适合这组数据;
(v)利用回归模型对 y 进行预报或控制。
1 数据表的基础知识
1.1 样本空间
1.2 数据的标准化处理
2 一元线性回归
2.1 模型
2.2 最小二乘估计方法
2.3 拟合效果分析
2.4 显著性检验
2.4.1 回归模型的线性关系检验
2.4.2 回归系数的显著性检验
3 多元线性回归
3.1 模型
3.2 参数估计
3.3 统计分析
3.4 回归模型的假设检验
3.5 回归系数的假设检验和区间估计
3.6 利用回归模型进行预测
4 Matlab 中的回归分析
4.1 多元线性回归
Matlab 统计工具箱用命令 regress 实现多元线性回归,用的方法是最小二乘法,用法是:
b=regress(Y,X)
残差及其置信区间可以用 rcoplot(r,rint)画图。
4.2 多项式回归
如果从数据的散点图上发现 y 与 x 呈较明显的二次(或高次)函数关系,或者用线性模型(20)的效果不太好,就可以选用多项式回归。
4.2.1 一元多项式回归
一元多项式回归可用命令 polyfit 实现。
4.2.2 多元二项式回归
统计工具箱提供了一个作多元二项式回归的命令rstool,它也产生一个交互式画面,并输出有关信息,用法是
rstool(x,y,model,alpha)
其中输入数据x,y分别为n × m 矩阵和n 维向量,alpha为显著性水平α (缺省时设定为0.05),model由下列4个模型中选择1个(用字符串输入,缺省时设定为线性模型):
5 偏相关系数
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数常具有虚假性。因为简单相关系数只考虑了两个变量之间的相互作用,而没有考虑其它变量对这两个变量的影响。为了更准确、真实地反映变量之间的相关关系,统计学中定义了偏相关系数(又称净相关系数)。
5.1 偏相关系数的定义
5.2 偏相关系数的检验
6 变量筛选方法
在确定自变量系统时,一是采用穷举法,列举出所有可能的潜在自变量;再根据自变量的不同组合,选取最合适的模型。由于每个变量都有可能被选用或不被选用,所以,穷举法要拟合与比较的方程个数为 m 2 (m 为潜在自变量的个数)。
当备选的潜在自变量数目很大时,则采用穷举方法就完全不现实了。下面我们介绍一些有效的变量筛选方法,向前选择变量法、向后删除变量法和逐步回归法。