【多元统计分析】10.多元线性回归

最新推荐文章于 2024-07-07 22:12:49 发布

江景页

最新推荐文章于 2024-07-07 22:12:49 发布

阅读量3.9k

点赞数 5

分类专栏：《多元统计分析》学习笔记文章标签：多元统计分析多元线性回归统计学

本文链接：https://blog.csdn.net/jingye333/article/details/109479669

版权

《多元统计分析》学习笔记专栏收录该内容

19 篇文章 106 订阅

订阅专栏

文章目录

十、多元线性回归

十、多元线性回归

1.多元线性回归概述

多元回归研究的是因变量 $Y$ 与 $m$ 个自变量 $x_1,\cdots,x_m$ 之间的相互依赖关系的，这里假定 $Y$ 是随机变量，而 $x_1,\cdots,x_m$ 是一般变量（视为非随机的）， $Y$ 不能由 $x_1,\cdots,x_m$ 完全决定，但是可以用 $x_1,\cdots,x_m$ 的函数进行估计。而多元线性回归中的，指的是关于“参数”的线性，我们一般可以把数据写成这样的线性模型：
$\left\{ \begin{array}l y_1=\beta_0+\beta_1x_{11}+\cdots+\beta_mx_{1m}+\varepsilon_1, \\ \cdots \cdots \cdots \cdots \cdots \cdots \\ y_n =\beta_0+\beta_1x_{n1}+\cdots+\beta_mx_{nm}+\varepsilon_n. \end{array} \right.$
这就是经典多元线性回归模型，这里 $\varepsilon_t$ 是偏差，可以将其视为一个与变量无关的白噪声，满足 ${\rm E}(\varepsilon_t)=0,{\rm D}(\varepsilon_t)=\sigma^2,{\rm Cov}(\varepsilon_i,\varepsilon_j)=0(i\ne j)$ ，还可以进一步假定其为正态白噪声，即 $\varepsilon_t\sim N(0,\sigma^2)$ 相互独立。

大型的式子都可以用向量、矩阵形式表达，多元线性回归模型也不例外，这里进行以下定义：
$Y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}_n,\beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}_{m+1},\varepsilon=\begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix}_n,C=(\boldsymbol 1_m|X)=\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1m} \\ 1 & x_{21} & x_{22} & \cdots & x_{2m} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nm} \end{bmatrix}_{n\times m},$
这样就有 $Y=C\beta +\varepsilon$ ，其中 $\varepsilon\sim N_n(0,\sigma^2I_n)$ 。要能够估计出 $m + 1$ 个参数 $\beta_0,\cdots,\beta_m$ ，就至少要有 $m + 1$ 个样本，也就是 $n > m$ ；同时我们要求各个自变量之间是不相关的，因为如果存在相关性，则自变量可以由其他自变量表出，所需要的回归系数就可以减少，所以我们的要求是 ${\rm rank} (C)=m+1$ 。

2.最小二乘法

在给定模型后，我们的目的是估计回归系数 $\beta$ ，在多元线性回归中常用的方法是最小二乘法。最小二乘法的思想就是让偏差平方和达到最小，偏差平方和即
$Q(\beta)=\sum_{t=1}^n e_t^2=\sum_{t=1}^n [y_t-(\beta_0+\beta_1x_{t1}+\cdots+\beta_mx_{mt})]^2=(Y-C\beta)'(Y-C\beta).$

如果令 $Y_t$ 为 $Y$ 的第 $t$ 行， $C_t$ 为 $C$ 的第 $t$ 行，则
$y_t-(\beta_0+\beta_1x_{t1}+\cdots+\beta_mx_{mt})=Y_t-C_t\beta,\\ [y_t-(\beta_0+\beta_1x_{t1}+\cdots+\beta_mx_{mt})]^2=(Y_t-C_t\beta)'(Y_t-C_t\beta).$
所以
$\begin{aligned} & (Y-C\beta)'(Y-C\beta) \\ =& \begin{bmatrix} (Y_1-C_1\beta)' \\ (Y_2-C_2\beta)' \\ \vdots \\ (Y_n-C_n\beta)' \end{bmatrix}\begin{bmatrix} (Y_1-C_1\beta) & (Y_2-C_2\beta) & \cdots & (Y_n-C_n\beta) \end{bmatrix}\\ =&\sum_{t=1}^n (Y_t-C_t\beta)'(Y_t-C_t\beta) \\ =&\sum_{t=1}^n e_t^2. \end{aligned}$

要使得 $Q(\beta)$ 最小，就有
$\begin{aligned} \frac{\partial Q(\beta)}{\partial \beta}=& \frac{\partial (Y-C\beta)'(Y-C\beta)}{\partial \beta} \\ =&\frac{\partial(Y'Y)}{\partial \beta}-\frac{\partial(\beta'C'Y)}{\partial \beta}-\frac{\partial(Y'C\beta)}{\partial \beta}+\frac{\partial(\beta'C'C\beta)}{\partial \beta}\\ =&\boldsymbol 0_{m+1}-C'Y-C'Y+2C'C\beta\\ =&2(C'C\beta-C'Y) \end{aligned}$

这里用到的矩阵微商公式有：
$\frac{\partial A}{\partial \beta}=0, \\ \frac{\partial \beta'y}{\partial \beta}=y, \\ \frac{\partial y'\beta}{\partial\beta}=y或\frac{\partial y'A\beta}{\partial \beta}=A'y,\\ \frac{\partial \beta'A\beta}{\partial \beta}=(A+A')\beta.$

所以让导数为0，就得到
$\hat \beta=(C'C)^{-1}C'Y.$
在刚才的推导中，我们得到了最小二乘法估计的参数值 $\hat\beta=(C'C)^{-1}C'Y$ ，结合我们的多元线性回归模型 $Y=C\beta+\varepsilon$ ，在已知 $X$ 时 $Y$ 的预测值就应该是
$\hat Y=C\hat \beta=C(C'C)^{-1}C' Y\stackrel {\rm d}=HY.$
这里的 $H=C(C'C)^{-1}C'$ 被称为帽子矩阵，可以看到
$H'H=C(C'C)^{-1}C'\cdot C(C'C)^{-1}C'=H^2=C(C'C)^{-1}C'=H.$
并且，此时的偏差为 $e=\hat\varepsilon=Y-\hat Y=(I-H)Y$ ，残差平方和就是
$\begin{aligned} Q(\hat\beta)=&\hat\varepsilon'\hat\varepsilon \\ =&Y'(I-H)'(I-H)Y \\ =&Y'(I-H)Y\\ =&Y'Y-Y'HY\\ =&Y'Y-Y'C\hat \beta. \end{aligned}$

3.最小二乘估计量的性质

最小二乘估计量 $\hat \beta=(C'C)^{-1}C'Y$ 是 $\beta$ 的最小方差线性无偏估计(BLUE)，对这个词做一些说明。

首先，很明显 $\hat \beta$ 是一个随机变量（因为 $Y$ 被假定为随机向量， $X$ 被视为普通向量，所以 $C$ 应该被视为常数阵， $Y$ 视为随机向量），而线性性，指的就是 $\hat \beta$ 可以被 $Y_1,\cdots,Y_n$ 所线性表示，这里的 $C'C)^{-1}C'$ 就是其线性表示系数。线性性的好处是，一些对于随机变量数字特征的对于独立随机变量的线性情形是有计算公式的，这样就可以很好地写出 $\hat \beta$ 的表现形式及其数字特征。

其次，无偏性指的是 ${\rm E}\hat \beta=\beta$ ，注意这里的 $\beta$ 是客观存在的，是不随抽样改变的常数，而 $\hat \beta$ 是随着我们抽取样本进行观测，根据样本的观测值算出的统计量，它是一个具有两重性的统计量。而
$Y=C\beta+\varepsilon,\quad {\rm E}(Y)=C\beta, \\ {\rm E}\hat \beta=(C'C)^{-1}C'{\rm E}(Y)=(C'C)^{-1}(C'C)\beta=\beta. \\ \begin{aligned} {\rm D}\hat \beta=&{\rm E}[(\hat\beta-\beta)(\hat\beta-\beta)'] \\ =&{\rm E}[(C'C)^{-1}C'\mu\mu'C(C'C)^{-1}]\\ =&(C'C)^{-1}C'{\rm E}\mu\mu' C(C'C)^{-1}\\ =&\sigma^2(C'C)^{-1}. \end{aligned}$
最后，最小方差性，指的是在所有的线性无偏估计中， $\hat \beta$ 是方差最小的一个。假设还有其他的线性无偏估计量 $\beta^*$ ，记作 $[(C'C)^{-1}C'+D]Y=C^*Y=\hat \beta+DY$ ，为了满足无偏性，有
${\rm E}\beta^*={\rm E}[C^*(X\beta+\mu)]={\rm E}(C^*X)\beta=\beta,\quad C^*X=I.$
而 $C^*X=(X'X)^{-1}X'X+DX=I+DX=I$ ，所以 $D X = 0$ 。于是
$\begin{aligned} {\rm Cov}(\beta^*|X)=&{\rm E}[(C^*Y-\beta)(C^*Y-\beta)'|X]\\ =&[{\rm E}(C^*\mu)(C^*\mu)'|X]\\ =&{\rm E}[(C^*\mu\mu'{C^*}')|X]\\ =&[(X'X)^{-1}X'+D]{\rm E}(\mu\mu'|X)[X(X'X)^{-1}+D']\\ =&\sigma^2[(X'X)^{-1}X'X(X'X)^{-1}+(X'X)^{-1}(XD)'+DX(X'X)^{-1}+DD']\\ =&\sigma^2(X'X)^{-1}+\sigma^2DD'. \end{aligned}$
由于 $D$ 是正定的，所以 $\sigma^2DD'>0$ ，所以 ${\rm Cov}(\beta^*|X)>\sigma^2(X'X)^{-1}={\rm Cov}(\hat \beta|X)$ ，这就证明了 $\hat \beta$ 的最小方差性。
这就说明 $\hat \beta$ 是最小方差的。

因为 $\hat \beta$ 是 $\beta$ 的最小方差线性无偏估计，所以对于 $\beta$ 的线性组合 $\alpha'\beta$ ，其最小方差线性无偏估计依然是 $a'\hat\beta$ 。实际应用时，我们会得到一组数 $x_{t1},\cdots,x_{tm}$ ，要用它预报 $y_t$ ，实际上就是对 $\beta$ 分量的线性组合，这也是我们用 $C\hat\beta$ 作为 $Y$ 的预测值的理由。

接下来探讨 $\hat \beta$ 作为一个随机变量时的分布。首先由线性性， $\hat\beta$ 是 $Y$ 的分量的线性组合，而 $Y$ 的每一个分量中随机部分都是 $\varepsilon$ 分量，在我们假定 $\varepsilon$ 是正态白噪声的情况下， $Y$ 的各个分量应该是相互独立且服从正态分布的，即 $Y\sim N_n(C\beta,\sigma^2I_n)$ ，所以
${\rm E}(\hat\beta)=(C'C)^{-1}C'{\rm E}(Y)=\beta, \\ {\rm D}(\hat\beta)=(C'C)^{-1}C'{\rm D}(Y)C(C'C)^{-1}=\sigma^2(C'C)^{-1}.$
即 $\hat \beta\sim N_{m+1}(\beta,\sigma^2(C'C)^{-1})$ 。

最后简要提一下白噪声方差 $\sigma^2$ 的估计，由最大似然估计法， $\beta$ 的极大似然估计依然是 $\hat \beta$ ，还可以得到 $\sigma^2$ 的最大似然估计是
$\hat \sigma^2=\frac{(Y-C\hat\beta)'(Y-C\hat\beta)}{n}=\frac{Q(\hat\beta)}{n}.$
但这个估计量不是无偏的，所以我们对其作修正，就得到了最小二乘估计
$s^2=\frac{(Y-C\hat\beta)'(Y-C\hat\beta)}{n-m-1},\quad {\rm E}(s^2)=\sigma^2.$

回顾总结

多元线性回归模型指的是这样的模型： $Y=C\beta+\varepsilon$ ，其中 $C=(\boldsymbol 1_n|X)$ ， $\varepsilon_t\sim {\rm WN}(0,\sigma^2)$ 。即使 $\varepsilon_t$ 不是正态白噪声，也至少应当满足零均值、同方差、序列不相关性。
使用最小二乘法求解多元线性回归模型，得到 $\beta$ 的最小二乘估计量是 $\hat\beta=(C'C)^{-1}C'Y$ ，基于此估计量和数据 $C$ 估计 $\hat Y=C\hat\beta=C(C'C)^{-1}C'Y=HY$ ，将 $H$ 称为帽子矩阵。
$\hat\beta$ 是 $\beta$ 的最佳线性无偏估计(BLUE)，即满足线性性、无偏性、最小方差性。且其分布是
$\hat\beta\sim N_{m+1}(\beta,\sigma^2(C'C)^{-1}).$
在获得 $\hat\beta$ 后，残差平方和为 $Q(\hat\beta)=(Y-C\hat\beta)'(Y-C\hat\beta)=Y'Y-Y'C\hat\beta$ ，可以用残差平方和估计 $\sigma^2$ ，其无偏估计为 $s^2=Q(\hat\beta)/(n-m-1)$ 。