【多元统计分析】11.回归方程与回归系数的显著性检验

最新推荐文章于 2024-11-11 09:37:55 发布

江景页

最新推荐文章于 2024-11-11 09:37:55 发布

阅读量3.5w

点赞数 24

分类专栏：《多元统计分析》学习笔记文章标签：多元统计分析多元线性回归假设检验

本文链接：https://blog.csdn.net/jingye333/article/details/109483340

版权

《多元统计分析》学习笔记专栏收录该内容

19 篇文章

订阅专栏

本文详细介绍了回归方程与回归系数的显著性检验方法，包括平方和分解、回归方程假设检验、中心化等价形式等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

十一、回归方程与回归系数的显著性检验

十一、回归方程与回归系数的显著性检验

回归方程的显著性检验，检验的是我们建立线性回归方程的合理性，因为我们不能肯定模型是正确的，也就是说我们需要检验 $Y$ 与 $x_1,\cdots,x_m$ 之间是否存在着线性关系，或者只跟其中的一部分变量存在线性关系。事实上，如果 $Y$ 与 $x_1,\cdots,x_m$ 之间均无线性相关关系，则 $\beta_i$ 应均为0，所以我们要检验的假设是
$H_0:\beta_1=\beta_2=\cdots =\beta_m=0.$

1.平方和分解

为了检验这个假设，我们需要找到一个检验统计量，平方和分解公式就提供了一种求检验统计量的方式。平方和分解公式指的是
$\sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2,$
这里 $\bar y=\frac 1n\sum_{i=1}^n y_i$ ， $\hat y_i=\hat \beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im}$ ， $\hat\beta$ 是 $\beta$ 的最小二乘估计即 $\hat\beta=(C'C)^{-1}C'Y$ 。

先进行普通的分解，即
$\begin{aligned} \sum_{i=1}^n(y_i-\bar y)^2=&\sum_{i=1}^n[(y_i-\hat y_i)+(\hat y_i-\bar y)]^2 \\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^n (y_i-\hat y_i)(\hat y_i-\bar y)\\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^ne_i(\hat y_i-\bar y). \end{aligned}$
接下来只需要证明交叉项为0，有
$\begin{aligned} &\sum_{i=1}^ne_i(\hat y_i-\bar y) \\ =&\sum_{i=1}^ne_i(\hat\beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im}-\bar y)\\ =&(\hat\beta_0-\bar y)\sum_{i=1}^n e_i+\hat\beta_1\sum_{i=1}^ne_ix_{i1}+\cdots+\hat\beta_m\sum_{i=1}^n e_ix_{im} \end{aligned}$
接下来回到最小二乘法的原理上，由于我们在前面的推导中，得到了 $C'C\hat\beta=C'Y$ 的结果，观察其第 $t + 1$ 行，有
$\sum_{j=0}^m\hat\beta_j\sum_{i=1}^nx_{it}x_{ij}=\sum_{i=1}^n x_{it}y_i\\ \sum_{j=0}^m\sum_{i=1}^n \hat\beta_jx_{it}x_{ij}=\sum_{i=1}^nx_{it}(\sum_{j=0}^m\hat\beta_jx_{ij}+e_i)=\sum_{i=1}^n\sum_{j=0}^m\hat\beta_jx_{it}x_{ij}+\sum_{i=1}^ne_ix_{it}$
也就是
$\sum_{i=1}^ne_ix_{it}=0.$
代入 $t=0,1,\cdots,m$ 就得到了交叉项为0的结果，所以平方和分解公式成立。

再观察平方和分解式子，左边的 $\sum_{i=1}^n(y_i-\bar y)^2$ 是样本观测值对样本均值的波动大小，记作总偏差平方和 ${\rm TSS}$ 或 $l_{yy}$ ；右边的第一项 $\sum_{i=1}^n(y_i-\hat y_i)^2$ 是残差平方和 ${\rm RSS}$ 或 $Q$ ，第二项 $\sum_{i=1}^n(\hat y_i-\bar y)^2$ 是由回归曲线决定的，称为回归平方和 ${\rm ESS,MSS}$ 或 $U$ 。这样，式子又可以写成
${\rm TSS}={\rm ESS}+{\rm RSS},\\ l_{yy}=U+Q.$

2.回归方程的假设检验

对于假设检验问题 $H_0:\beta_1=\beta_2=\cdots =\beta_m=0$ ，如果回归曲线表现得好，残差平方和应该尽可能小，也就是 ${\rm RSS},Q$ 会尽可能小；所以回归曲线表现的好也体现在 ${\rm ESS}$ 在 ${\rm TSS}$ 中占据较大的比例，相应的 ${\rm RSS}$ 占据比例就会比较小，因此我们构造检验统计量为 ${\rm ESS/RSS}$ 。并且有定理指出，在 $H_0$ 成立时，
$\frac{Q}{\sigma^2}\sim \chi^2_{n-m-1},\quad\frac{U}{\sigma^2}\sim \chi^2_m,\\ \frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1).$
如果检验统计量很大，检验的p-value很小，则应该否定 $H_0$ ，就认为回归关系是存在的。

3.中心化的等价形式

在计量经济学中，我们常常用小写字母表示中心化后的数据，所以我们现在尝试将数据中心化。将回归模型 $Y=C\beta +\varepsilon$ 中心化，得到的新回归模型可以写成如下的等价形式：
$y_i-\bar y=\beta_0^*+\beta_1(x_{i1}-\bar x_i)+\cdots+\beta_m(x_{im}-\bar x_m)+\varepsilon_i,\quad (i=1,2,\cdots,n) \\ \varepsilon\sim N_n(0,\sigma^2I_n).$
这里 $\beta_0^* =\beta_0-\bar y+\sum_{i=1}^n \beta_i\bar x_i$ ，但事实上，中心化式子的好处是我们可以证明 $\hat \beta_0^*=0$ 。接下来我们在矩阵形式中予以证明，试写出矩阵形式，作以下标记
$\tilde \beta=\begin{bmatrix} \beta_0^* \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}=\begin{bmatrix} \beta_0^* \\ B \end{bmatrix},\quad \tilde Y=\begin{bmatrix} y_1 - \bar y \\ y_2 - \bar y \\ \vdots \\ y_n-\bar y \end{bmatrix}, \\ \tilde X=\begin{bmatrix} x_{11}-\bar x_1 & x_{12}-\bar x_2 & \cdots & x_{1m}-\bar x_m \\ x_{21}-\bar x_1 & x_{22}-\bar x_2 & \cdots & x_{2m}-\bar x_m \\ \vdots & \vdots & & \vdots \\ x_{n1}-\bar x_1 & x_{n2}-\bar x_2 & \cdots & x_{nm}-\bar x_m \end{bmatrix},\tilde C=(\boldsymbol 1|\tilde X).$

这样就可以把模型写成 $\tilde Y=\tilde C\tilde \beta +\varepsilon,\varepsilon\sim N_n(0,\sigma^2I_n)$ ，类似地得到 $\tilde C'\tilde C\tilde \beta=\tilde C'\tilde Y$ ，而
${\tilde C}'\tilde C=(\boldsymbol 1|\tilde X)'(\boldsymbol 1|\tilde X)= \begin{bmatrix} \boldsymbol 1_n'\boldsymbol 1_n & \boldsymbol 1_n'\tilde X \\ \tilde X'\boldsymbol 1_n & \tilde X'\tilde X \end{bmatrix}\stackrel{\rm d}=\begin{bmatrix} n & O_{1\times m} \\ O_{m\times 1} & L \end{bmatrix},$
这里 $L=\tilde X'\tilde X=(l_{ij})_{m\times m},l_{ij}=\sum_{t=1}^n(x_{ti}-\bar x_i)(x_{tj}-\bar x_j)$ ，而
$\tilde C'\tilde Y=(\boldsymbol 1_n |\tilde X)'\tilde Y= \begin{bmatrix} \boldsymbol 1_n'\tilde Y \\ \tilde X'\tilde Y \end{bmatrix}\stackrel {\rm d}= \begin{bmatrix} 0 \\ l \end{bmatrix},$
这里 $l=(l_{1y},\cdots,l_{my})',l_{iy}=\sum_{t=1}^n(x_{ti}-\bar x_i)(y_t-\bar y)$ ，这样正规方程就可以写成
$\begin{bmatrix} n & O \\ O & L \end{bmatrix}\begin{bmatrix} \hat \beta_0^* \\ B \end{bmatrix}=\begin{bmatrix} 0 \\ l \end{bmatrix}\Rightarrow \hat \beta_0^*=\hat\beta_0-\bar y+\sum_{i=1}^n\hat\beta_i\bar x_i=0.$
这也解释了为什么回归直线总会经过样本中心点，同时还可以得到正规方程的等价形式 $L B = l$ ，即
$\tilde X'\tilde XB=\tilde X'\tilde Y\Rightarrow \hat B=(\tilde X'\tilde X)^{-1}\tilde X'\tilde Y=L^{-1}l,\hat B\sim N_m(B,\sigma^2L^{-1}).$
在给定 $X$ 时预测 $\hat Y$ 应采用如此形式： $\hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B$ 。并且，在此形式下回归平方和很容易表示。因为 $\hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B$ ，所以
$U=\sum_{i=1}^n(\hat y_i-\bar y)^2=(\hat Y-\bar y\boldsymbol 1_n)'(\hat Y-\bar y\boldsymbol 1_n)=\hat B'\tilde X'\tilde X\hat B=\hat B'L\hat B=\hat B'l. \\ Q = l_{yy}-U.$

4.回归系数的假设检验

回归关系存在并不意味着每一个自变量对于随机变量 $y$ 的影响都是显著的，有的自变量可能跟 $y$ 毫不相关，把它纳入回归的范围就可能导致过拟合、模型不适用于预测新数据的问题。如果 $x_i$ 对 $y$ 没有影响，则在回归方程中应该有 $\beta_i=0$ ，所以我们还需要对每个偏回归系数进行逐个检验，即检验如下的假设： $H_0:\beta_i=0$ 。

为了构造检验此假设的检验统计量，定义 $x_i$ 的偏回归平方和如下：

偏回归平方和：设 $U$ 是 $x_1,\cdots,x_m$ 对 $Y$ 的回归平方和， $U (i)$ 为去掉 $x_i$ 后，剩下 $m - 1$ 个自变量对 $Y$ 的平方和，则称变量 $x_i$ 的回归平方和是 $P_i=U-U(i)=Q(i)-Q$ 。

其计算公式为 $P_i=\hat \beta_i^2/l^{ii}$ ，这里 $l^{ii}$ 是 $L^{-1}=(\tilde X'\tilde X)^{-1}$ 的第 $i$ 个对角元素，同时可以证明
$t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1).$
当偏回归平方和 $P_i$ 过大时， $t_i$ 也会很大，p-value很小，就越应该否定原假设 $H_0$ ，认为 $\beta_i\ne 0$ 。直观上理解，如果偏回归平方和很大，就说明变量 $x_i$ 的删除与否对于回归平方和的影响很大，等价于对残差平方和的影响也很大，这就说明 $x_i$ 是显著的；反之，如果偏回归平方和很小，就可以认为 $x_i$ 在回归模型中无足轻重，不影响回归模型。

在实际应用中，要建立最优的回归方程，就是要选择合适的预报变量来决定回归方程，这指的是包含所有在显著性水平 $\alpha$ 下，对 $Y$ 作用显著的变量。当建立回归模型后，对所有回归系数进行假设检验，如果所有回归系数的p-value都小于 $\alpha$ ，就认为方程是最优的；否则，就应该剔除显著性最小的那一个（注意只能剔除一个，一般是p-value最大的），重新建立回归模型，并重复以上步骤。

5.回归方程的预报精度

最后，简要地介绍一下回归方程预报精度的问题。我们已经知道，通过样本 $C$ ，回归系数的最小方差线性无偏估计是 $\hat \beta=(C'C)^{-1}C'Y$ ，给定一组 $x_0=(1,x_{01},\cdots,x_{0m}')$ 后， $y_0$ 的最佳点估计是
$\hat y_0=x_0'\hat\beta.$
但是这个点估计的精度如何，有赖于 $y_0-\hat y_0$ 的分布。显然有如下的结论：
$\hat y_0\sim N(x_0'\beta,\sigma^2x_0'(C'C)^{-1}x_0), \\ y_0-\hat y_0\sim N(0,\sigma^2[1+x_0'(C'C)^{-1}x_0]).$
因此，统计量为
$t=\frac{y_0-\hat y_0}{\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}}\sim t(n-m-1),\quad \hat\sigma^2=\frac{Q}{n-m-1}.$
基于此，可以在给定 $\alpha$ 的情况下得到 $y_0$ 的置信区间。

回顾总结

为了检验模型的有效度，需要检验假设 $H_0:\beta_1=\cdots =\beta_m=0$ ，检验统计量为
$F=\frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1).$
如果 $F$ 很大，p-value很小，就否定原假设，认为回归模型有效。
平方和分解公式： ${\rm TSS=RSS+ESS},l_{yy}=Q+U$ 。在给定预测值后， ${\rm TSS}$ 就是定值，不同回归曲线有不同的回归平方和 ${\rm RSS}$ ，最小二乘法得出的直线有最大的 ${\rm RSS}$ 。拟合优度就是 $R^2={\rm ESS/TSS}$ ，代表回归平方和在总偏差平方和中的占比，越大代表拟合优度越高。
将数据中心化，可以得到正规方程的等价形式： $\tilde X'\tilde XB=\tilde X'\tilde Y$ ，也即 $L B = l$ ，从而 $B=L^{-1}l$ 。这里 $\tilde X,\tilde Y$ 都表示中心化后的数据矩阵。中心化的好处是去除了截距项 $\hat \beta_0^*$ ，这也说明
$\hat \beta_0=\bar y-\sum_{i=1}^m \beta_i\bar x_i.$
为了检验变量的显著性，需要逐个检验假设 $H_0:\beta_i=0$ ，检验统计量为偏回归平方和的变换，即
$t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}=\frac{\hat\beta_i/\sqrt {l^{ii}}}{Q/(n-m-1)}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}=\frac{\hat\beta_i^2/l^{ii}}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1).$
这里 $l^{ii}$ 指的是 $L^{-1}$ 的第 $i$ 个对角元素， $P_i$ 指的是偏回归平方和 $U - U (i)$ 。如果 $t_i$ 或者 $F_i$ 很大，p-value很小，就否定原假设，认为 $x_i$ 显著。
如果有一些自变量 $x_i$ 的显著性很差，则需要删除，每一步只能删除一个显著性最差、p-value最大的自变量，然后重新建立模型并计算。
在获得 $\hat \beta$ 后，预报误差服从以下正态分布： $y_0-\hat y_0\sim N(0,\sigma^2(1+x_0'(C'C)^{-1}x_0))$ ，所以构造以下枢轴量：
$\frac{y_0-\hat y_0}{\sqrt{\hat \sigma^2(1+x_0'(C'C)^{-1}x_0)}}\sim t(n-m-1),\quad \hat \sigma^2=\frac{Q}{n-m-1}.$
可以构造 $y_0$ 的置信水平为 $\alpha$ 的置信区间为 $y_0-d,y_0+d]$ ，这里
$d=t_\alpha\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}.$