目录
知识结构
内容精读
1.多元回归模型
在实际中,影响因变量的因素有时并不唯一,这种一个因变量与多个自变量的回归问题就是多元回归。当因变量与各自变量之间是线性关系时,称作多元线性回归。
多元线性回归方程的一般形式为:
$$y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+……+\beta_{k}x_{k}+\varepsilon$$
与一元回归相似,多元线性回归中对于误差项$\varepsilon$同样有三个假定:
- 对于$x_{1},x_{2},…,x_{k}$的所有值,$\varepsilon$的方差$\sigma^2$都相同。
- $E(\varepsilon)=0,E(y)=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+……+\beta_{k}x_{k}$。
- $\varepsilon~N(0,\sigma^2)$。独立性意味着自变量$x_{1},x_{2},…,x_{k}$的一组特定值对应的$\varepsilon$与任意一组其他值对应的$\varepsilon$不相关。正态性意味着自变量给定时,因变量y是一个服从正态分布的随机变量。
与一元回归相同,多元回归方程中的参数也是未知的,需要用样本数据进行估计。
$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1}x_{1}+\hat{\beta}_{2}x_{2}+…+\hat{\beta}_{k}x_{k}$$
对于多元回归参数的求解仍然根据最小二乘法,使残差平方和$Q=\sum{(y_{i}-\hat{y}_{i})}$最小。但是多元回归的计算过程较为复杂,一般通过计算机进行。
2.拟合优度
多重判定系数
多元回归的判定系数与一元时相同,都是$R^2=\frac{SSR} {SST}$,在多元回归中称为多重判定系数,只是多元SSR,SSE,SST的计算同样复杂,利用计算机直接得到结果。
需要注意的是,当自变量个数增加时,预测误差会变小从而减小SSE,SSR也就相应变大,从而$R^2$也就变大。因此提出来调整的多重判定系数
$$R^2_{a}=1-(1-R^2)(\frac{n-1} {n-k-1})$$
$R^2_{a}$同时考虑了样本量n和模型中自变量的个数k的影响,所以$R^2_{a}$永远小于$R^2$,且不会随着自变量的增加而越来越接近1,因此多元回归中常使用调整的多重判定系数。
$R^2$的平方根称为多重相关系数,表示在因变量的变差中,能被回归方程解释的比例。
估计标准误差
与一元一样,多元回归的估计标准误差也是误差项$\varepsilon$的一个估计值
$$s_{e}=\sqrt{\frac{SSE}{n-k-1}}$$
3.显著性检验
在一元回归中,因为只有一个自变量,所以线性关系检验与回归系数检验是一致的。而到了多元回归,这两种检验便不再等价。
线性关系检验
(1)提出假设
$$H_{0}:\beta_{1}=\beta_{2}=…=\beta_{k}=0$$。
$$H_{1}:\beta_{1},\beta_{2},…,\beta_{k}$$至少有一个不等于0。
(2)计算统计量
$$F=\frac{SSR/k} {SSE/(n-k-1)}~F(k,n-k-1)$$
(3)统计决策
若$F>F_{\alpha}$,则拒绝原假设,若$F<F_{\alpha}$则不拒绝。
回归系数检验
(1)提出假设
$$H_{0}:\beta_{i}=0$$
$$H_{1}:\beta_{i}\neq{0}$$
(2)计算检验统计量t
$$t_{i}=\frac{\hat{\beta}_{i}} {s_{\hat{\beta}_{i}}}~t(n-k-1)$$
其中$s_{\hat{\beta}_{i}}=\frac{s_{e}} {\sqrt{\sum{x_{i}^2}=\frac{1}{n}(\sum{x_{i}})^2 }}$
(3) 统计决策
若$|t|>t_{\alpha/2}$则拒绝原假设。
4.多重共线性因变量
当自变量个数不唯一时,变量间可能彼此相关,也就会提供多余的信息。把这种两个或两个以上自变量彼此相关的情况称为存在多重共线性。在回归分析中存在多重共线性可能会导致一些问题:
- 可能导致回归的结果混乱,甚至把分析引入歧途。
- 可能对参数估计值的正负号产生影响。
一般当存在下面这些情况时暗示存在多重共线性:
- 模型中各队自变量间显著相关。
- 模型的线性关系显著时,几乎所有的回归系数的t检验结果都不显著。
- 回归系数的正负号与预期相反。
- 容忍度与方差扩大因子。
面对多重共线性的处理方式:
- 将一个或多个相关的自变量从模型中剔除。
- 避免根据t统计量对单个参数$\beta$进行检验。
- 对因变量的推断限定在自变量样本值的范围内。
多重共线性带来的麻烦主要是对单个回归系数的解释和检验,求因变量的置信区间和预测区间时一般不受影响。
5.逐步回归
在建立模型前,总希望选择最少的变量。但究竟哪些自变量应该引入模型哪些不应该引入,这需要一定的方法。在回归时,每次只增加一个变量,将新变量与模型中的变量进行比较,若引入新变量后某个以前变量的t检验不显著,就将这个变量剔除。这就是回归的逐步搜索过程,也是避免多重共线性的方法之一。
向前选择
(1)对k个自变量分别拟合与因变量的一元线性回归模型。找出F统计量最大的模型首先引入方程。
(2)在已经引入模型的基础上,分别拟合剩下的自变量,继续挑选F统计量最大的组合,如果除了初始的自变量,其他自编了没有显著的,则终止运算。如此反复进行直到模型外的自变量均无统计上的显著性。
向前选择就是不断向模型中增加自变量,直到自变量不能导致SSE显著增加(F检验实现),因此只要变量加到模型中就一定会保留。
向后剔除
向后剔除与向前选择相反
(1)先对因变量拟合包含全部自变量的模型。然后去掉一个自变量,挑选出使模型SSE值减小最少得自变量并剔除。
(2) 反复第一步,直到剔除一个自变量不会使SSE显著减少为止。
逐步回归
逐步回归是在将前两个结合后的筛选自变量的方法。前两步与向前选择相同,不过增加一个自变量后,会对模型中所有的变了进行考察,看有没有可能剔除某个自变量。如果增加一个自变量后前面增加的某个自变量对模型的贡献变得不显著,就将这个变量剔除。直到增加变量不会使SSE显著减小。由此可见,在逐步回归中,前面增加的变量仍有可能被剔除,而被剔除的变量仍有可能被再次增加进模型。
名词解释
容忍度:某个自变量的容忍度等于1减去该自变量为因变量而其他k-1个自变量为预测变量时所得到的线性回归模型的判定系数,即1-R。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。
方差扩大因子:方差扩大因子等于容忍度的倒数,即$VIF=\frac{1}{1-R_{i}^2}$。显然,VIF越大多重共线性就越严重。一般认为VIF大于10则认为存在严重的多重共线性。