计量经济学复习笔记（四）：多元线性回归-CSDN博客

本文链接：https://blog.csdn.net/jingye333/article/details/112512233

本文围绕多元线性回归展开，介绍了其系数求解方法，需满足X′X可逆条件。阐述了线性回归模型的基本假设，强调条件分布的重要性。指出参数估计具有线性性、无偏性、最小方差性和一致性，还给出了参数的区间估计和假设检验方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

计量经济学复习笔记（四）：多元线性回归

一元线性回归的解释变量只有一个，但是实际的模型往往没有这么简单，影响一个变量的因素可能有成百上千个。我们会希望线性回归模型中能够考虑到这些所有的因素，自然就不能再用一元线性回归，而应该将其升级为多元线性回归。但是，有了一元线性回归的基础，讨论多元线性回归可以说是轻而易举。

另外我们没必要分别讨论二元、三元等具体个数变量的回归问题，因为在线性代数的帮助下，我们能够统一讨论对任何解释变量个数的回归问题。

1、多元线性回归模型的系数求解

多元线性回归模型是用 $k$ 个解释变量 $X_1,\cdots,X_k$ 对被解释变量 $Y$ 进行线性拟合的模型，每一个解释变量 $X_i$ 之前有一个回归系数 $\beta_i$ ，同时还应具有常数项 $\beta_0$ ，可以视为与常数 $X_0=1$ 相乘，所以多元线性回归模型为
$Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k+\mu, \tag{4.1}$
这里的 $\mu$ 依然是随机误差项。从线性回归模型中抽取 $n$ 个样本构成 $n$ 个观测，排列起来就是
$\begin{matrix} Y_1=\beta_0X_{10}+\beta_1X_{11}+\beta_2X_{12}+\cdots+\beta_kX_{1k}+\mu_1,\\ Y_2=\beta_0X_{20}+\beta_1X_{21}+\beta_2X_{22}+\cdots+\beta_kX_{2k}+\mu_2, \\ \vdots \\ Y_n=\beta_0X_{n0}+\beta_1X_{n1}+\beta_2X_{n2}+\cdots+\beta_kX_{nk}+\mu_n.\end{matrix}\tag{4.2}$
其中 $X_{10}=X_{20}=\cdots=X_{n0}=1$ 。大型方程组我们会使用矩阵表示，所以引入如下的矩阵记号。
${Y=\begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\quad \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix}, \mu=\begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix}.\\ X=\begin{bmatrix} X_{10} & X_{11} & X_{12} & \cdots & X_{1k} \\ X_{20} & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ X_{n0} & X_{n1} & X_{n2} & \cdots & X_{nk} \end{bmatrix}. } \tag{4.3}$
在这些矩阵表示中注意几点：首先， $Y$ 和 $\mu$ 在矩阵表示式中都是 $n$ 维列向量，与样本容量等长，在线性回归模型中 $Y,\mu$ 是随机变量，而在矩阵表示中它们是随机向量，尽管我们不在表示形式上加以区分，但我们应该根据上下文明确它们到底是什么意义； $\beta$ 是 $k + 1$ 维列向量，其长度与 $Y,\mu$ 没有关系，这是因为 $\beta$ 是依赖于变量个数的，并且加上了对应于常数项的系数（截距项） $\beta_0$ ；最后， $X$ 是数据矩阵，且第一列都是1。在这些矩阵的定义下，多元线性回归模型的观测值们可以表示为
$Y=X\beta+\mu.\tag{4.4}$
我们的目标是求得 $\beta$ 的估计 $\hat\beta$ ，与一元线性回归一样，虽然 $Y, X$ 都是随机变量，但我们需要的是给定 $X$ 时的条件分布。此时依然使用OLS估计，设 $\beta$ 的估计量为 $\hat\beta$ ，则残差向量是 $e=Y-X\hat\beta$ ，残差平方和为 $Q = e^{'} e$ 。为使残差平方和最小，需要对 $\hat\beta$ 求偏导，即
$\begin{aligned} \frac{\partial Q}{\partial \hat\beta}=&\frac{\partial}{\partial\hat\beta}(e'e)\\ =&\frac{\partial}{\partial\hat\beta}[(Y-X\hat\beta)'(Y-X\hat\beta)]\\ =&\frac{\partial}{\partial\hat\beta}[Y'Y-\hat\beta' X'Y-Y'X\hat\beta+\hat\beta'X'X\hat\beta]\\ =&2(X'X\hat\beta-X'Y)=0. \end{aligned}\tag{4.5}$

于是
$X'X\hat\beta=X'Y,\tag{4.6}$
若 $X^{'} X$ 可逆，则
$\hat\beta=(X'X)^{-1}X'Y.\tag{4.7}$
这样我们就得到了 $\beta$ 的参数估计量 $\hat\beta$ 。顺带一提，由于我们将 $Q$ 表现为矩阵乘积的形式，所以对 $\hat\beta$ 求偏导也能得到 $Q$ 的最小值，事实上对 $\hat\beta$ 求矩阵微商的过程，等价于对 $\hat\beta$ 中的每一个分量 $(\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k)$ 求偏导，然后将每一个偏导的结果按列排布，这样令矩阵微商为0，就等价于每一个偏导数为0。这里用到的矩阵微商公式有以下两个：
$\frac{\partial x'b}{\partial x}=\frac{\partial b'x}{x}=b,\frac{\partial x'Ax}{x}=(A+A')x.\tag{4.8}$
当然，我们不能忽略这样一个事实：想要得到这样的OLS估计量必须有 $X^{'} X$ 可逆，但是 $X^{'} X$ 在什么情况下可逆？注意到 $X$ 是一个 $n\times(k+1)$ 型矩阵， $X^{'} X$ 是一个 $k + 1$ 阶方阵，要使其可逆，则 $X^{'} X$ 满秩，也就是 $r (X^{'} X) = k + 1$ 。由于 $r(X'X)\le r(X)\le\min(n,k+1)$ ，所以 $X^{'} X$ 要满秩，有以下的必要条件：

$n\ge k+1$ ，也就是样本观测数不小于 $k + 1$ ；
$r (X) = k + 1$ ，也就是 $X$ 的列向量组必须线性无关。

现在，我们已经认识到 $X$ 的列向量组应当无关，也就是 $(X_1,\cdots,X_k)$ 不线性相关这一基本假设需要被满足。进一步地，我们应该开始认识线性回归模型的基本假设了，我们所说的OLS估计量的优秀性质，全部依赖于线性回归模型的基本假设，如果基本假设无法被满足，我们的OLS估计量就会失去很多效果。

2、线性回归模型的基本假设

在一元线性回归模型中，我们只粗糙地提到了以下的假设：随机误差项条件零均值同方差、随机误差项条件序列不相关、任意随机误差项与解释变量不相关，以及随机误差项服从条件正态分布。事实上，一元线性回归模型的基本假设不止以上几条，它与多元线性回归模型的基本假设一致，有以下几条。

回归模型是正确假定的。
解释变量 $X_1,\cdots,X_k$ 在所抽取的样本中具有变异性（独立同分布），且不存在多重共线性。
随机误差项具有条件零均值性，即
$\mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9}$
随机误差项具有条件同方差性与条件序列不相关性，即
${\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j.$
随机误差项服从条件正态分布，即
$\mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11}$

用矩阵符号表示，令 $X$ 为 $n\times (k+1)$ 型数据矩阵（也可以视为 $k + 1$ 维行随机向量，分情况而定）， $\mu=(\mu_1,\cdots,\mu_n)$ ，则

$r (X) = k + 1$ ，相当于 $X$ 列满秩。
$\mathbb E(\mu|X)=0$ ，这里 $0$ 是 $n$ 维列向量。
$\mathbb D(\mu|X)=\sigma^2I_n$ ，这里 $I_n$ 是 $n$ 阶单位阵。
$\mu|X\sim N_n(0,\sigma^2I_n)$ 。

现在我们要对这些基本假设作出解释。

首先，无论是在一元线性回归还是多元线性回归，我们在假设 $\mu$ 的分布时，总是强调“条件分布”，而不是简单地说 $\mu$ 是零均值同方差序列不相关的。应当如何理解这个条件分布？我们必须认识到，实际抽取样本的过程中， $(Y, X)$ 都是随机变量，尤其是 $X$ 实际上是作为随机变量出现的，只是由于我们常常因为 $X$ 是可以观测的而将 $X$ 作为常数处理。简单举个例子，假设一维随机变量 $X$ 服从如下的离散分布：
$\mathbb P(X=1)=\mathbb P(X=-1)=0.5,\tag{4.12}$
将 $(\mu,X)$ 作为二维随机向量处理， $\mu$ 始终与 $X$ 数值相同，也就是 $X = 1$ 时 $\mu=1$ ， $X = - 1$ 时 $\mu=-1$ ，则我们有
$\mathbb E(\mu)=\mathbb P(\mu=1)-\mathbb P(\mu=-1)=\mathbb P(X=1)-\mathbb P(X=-1)=0,\tag{4.13}$
但是这个时候的 $\mu$ 是否是条件零均值的？显然不是，因为
$\mathbb E(\mu|X=1)=1,\\ \mathbb E\mathbb (\mu|X=-1)=-1.\tag{4.14}$
显然这样的随机误差分布并不是我们想要的那种“随机”，因为它实际上与 $X$ 相关，并不是真正的随机。我们想要的随机是在任何 $X$ 的水平下， $\mu$ 都具有同样的分布，因此加入条件分布的约束是有必要的，理解条件分布的关键，就在于要将 $X$ 作为随机变量看待。

其次，我们要求回归模型是正确假定的，这指的是我们要求总体确实具有与线性回归函数的形式——否则我们用线性回归模型拟合肯定不可能用样本估计总体，因为总体回归函数与样本回归函数甚至没有相同的形式，更不用说相同的参数估计。

最后，我们要求 $\mathbb E(\mu|X)=0$ ，这包含了如下信息：
$\mathbb E(\mu X)=\mathbb E[\mathbb E(\mu X|X)]=\mathbb E[X\mathbb E(\mu|X)]=0.\tag{4.15}$
这也就说明 ${\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0$ ，即 $\mu,X$ 不存在任何形式的相关性。自然，其中包括了当时间指标相同时，有
$\mathbb E(\mu_iX_i)=0.\tag{4.16}$
这时候我们称解释变量 $X$ 与随机误差 $\mu$ 是同期不相关的，这是一个很重要的假定，至于它为什么重要，我们将在以后讨论。

3、参数估计的性质

我们已经知道在满足基本假设的前提下，一元线性回归的OLS估计量拥有BLUE性质，其实多元线性回归的OLS估计量也是如此，这也是我们引入前四条基本假设的原因之一。现在我们不讨论BLUE性的证明，直接给出 $\hat\beta=(X'X)^{-1}(X'Y)$ 是BLUE估计量的结论。

$\hat\beta$ 是 $Y$ 的线性组合，也就是说 $\forall i=0,1,\cdots,k$ ， $\hat\beta_i$ 是 $Y_1,\cdots,Y_n$ 的线性组合。这一点是不言自明的，从 $\hat\beta$ 的表达式就可以看出来。
$\hat\beta$ 是 $\beta$ 的无偏估计量，这等价于 $\forall i=0,1,\cdots,k$ ， $\hat\beta_i$ 是 $\beta_1$ 的无偏估计量。
$\hat\beta$ 是 $\beta$ 的所有线性无偏估计量中，方差最小的那个。

在一元线性回归的过程中， $\hat\beta_1,\hat\beta_0$ 是最小方差的，这里的“最小”很好理解。而扩展到多元时， $\hat\beta$ 的方差是它的自协方差矩阵 $\mathbb D(\hat\beta)$ ，在这种意义下的最小方差是什么，有必要说明一下。

对于两个非负定矩阵 $A, B$ ，如果存在另一个非负定矩阵 $C$ 使得 $A = B + C$ ，则称 $A\ge B$ ——由此构建了非负定矩阵之间的大小关系。不难看出，如果 $A\ge B$ ，则对于每一个对角元素都有 $a_{ii}\ge b_{ii}$ ，因为如果存在某个 $i$ 使得 $a_{ii}<b_{ii}$ ，则令 $C = A - B$ ， $c_{ii}<0$ ，取向量 $e_i$ （第 $i$ 个元素为1，其他元素为0的列向量）可以得到
$e_i'Ce_i=c_{ii}<0,\tag{4.17}$
这就说明 $C$ 不是一个非负定矩阵，矛盾。

因此，这里 $\hat\beta$ 的最小方差性，意味着 $\mathbb D(\hat\beta)$ 在非负定意义上最小，自然也意味着对于每一个 $\hat\beta_i$ ，它都是线性无偏估计里方差最小的。

除了 BLUE性，OLS估计量还有一个很重要的性质——一致性，而我们常常忽略这个性质的重要意义。导致我们忽略一致性的原因，一个是BLUE里不包含一致性，而好多人仅仅记住了OLS估计量的BLUE性；另一个是一致性与BLUE性表现性质不同，一致性是大样本性质，BLUE性是小样本性质。什么是大样本性质？并不是说样本量很大的性质，就是大样本性质。大样本性质与小样本性质的本质不同在于，大样本性质包含着样本容量 $n\to \infty$ 的趋势，只要是 $n$ 趋于无穷能表现出来的性质都是大样本性质。

回到一致性上，OLS估计量的一致性指的是
$\hat\beta\stackrel {P}\to \beta,\tag{4.18}$
即 $\hat\beta$ 以概率收敛于 $\beta$ 。稍作翻译，这个式子的意义是 $\forall \varepsilon>0,i=0,1,\cdots,k$ ，
$\lim_{n\to \infty}\mathbb P(|\hat\beta_i-\beta_i|>\varepsilon)=0.\tag{4.19}$
如果还是不了解一致性有什么意义，可以看下面的例子。现在我们想对某个线性回归模型进行参数估计，并且希望能达到0.001的精度，也就是每一个参数与真值的偏离值超过 $\varepsilon=0.001$ 的概率都小于任意给定的置信水平 $\alpha$ 。显然，具有一致性的估计量可以做到这一点，因为给定了精度，我们只要通过增加抽取的样本，参数的估计量就会自动调整，并且一定是向着接近真值的方向靠近。如果某个参数估计量不具有一致性，即使你抽取再多的样本都没法达到给定的精度，这就是一致性的重要意义。

因此，我们的参数估计量具有线性性、无偏性、最小方差性（有效性）以及一致性，后三个的证明，我们将在基本假设不能满足的情况下给出，从而向你展示每一个基本假设都具有什么样的重要意义，不满足这些基本假设会有什么样的严重后果。最后，在正态性、线性性约束下，我们很容易知道 $\hat\beta$ 一定服从多元正态分布，所以只需要求得其均值方差即可。

无偏性保证了
$\mathbb E(\hat\beta)=\beta,\tag{4.20}$
关于方差，我们也在这里直接给出（而不给出证明，因为这依赖于基本假设）。
$\mathbb D(\hat\beta)=\sigma^2(X'X)^{-1}.\tag{4.21}$
从而
$\hat\beta\sim N_{k+1}(\beta,\sigma^2(X'X)^{-1}),\tag{4.22}$
自然有
$\hat\beta_i\sim N(\beta_i,\sigma^2(X'X)^{-1}_{ii}).\tag{4.23}$
这样，我们就得到了每一个OLS估计量的分布，自然地可以用它进行区间估计与假设检验。

4、参数的区间估计和假设检验

与一元线性回归问题一样，我们需要考虑的是随机误差项方差 $\sigma^2$ 的估计，而且我们依然会使用残差平方和 ${\rm RSS}$ 来估计方差。这里，我们给出一个 $\sigma^2$ 的无偏估计的证明。

注意到 $e=Y-X\hat\beta$ ，所以
$\begin{aligned} Q=&e'e\\ =&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2\hat\beta'X'Y+\hat\beta'X'X\hat\beta\\ =&Y'Y-2Y'X(X'X)^{-1}X'Y+Y'X(X'X)^{-1}(X'X)(X'X)^{-1}X'Y\\ =&Y'[I-X(X'X)^{-1}X' ]Y \end{aligned}\tag{4.24}$
这里要注意的是，不能够直接把 $X'X)^{-1}$ 拆开成 $X^{-1}(X')^{-1}$ ，因为 $X, X^{'}$ 都不是方阵，不存在逆矩阵。对其求期望，就有
$\begin{aligned} \mathbb E(Q|X)=&\mathbb E[\beta'X'(I-X(X'X)^{-1}X')X\beta]+\mathbb E[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'\mu(I-X(X'X)^{-1}X')]\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X(X'X)^{-1}X']\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X'X(X'X)^{-1}] \\=&\sigma^2(n-k-1). \end{aligned}\tag{4.25}$
对上面的式子需要作几点声明。第一个等号成立，是将 $Y$ 用 $X\beta+\mu$ 替代后利用 $\mathbb E(\mu X)=0$ 得到的；第二个等号成立，是因为第一部分代入计算后显然等于0，第二部分是一个 $1\times 1$ 矩阵，其迹等于自身；第三个等号成立，是因为迹运算满足交换律：
${\rm tr}(AB)={\rm tr}(BA).\tag{4.26}$
第四个等号成立，则是将 $\mathbb E(\mu'\mu)=\sigma^2$ 替换掉期望后将两部分拆开；第五个等号成立再次运用了迹运算的交换律；第六个等号需要格外注意，我们这里的单位阵 $I$ 是出现于 $Y^{'} Y = Y^{'} I Y$ 的 $(4.24)$ ，所以是 $n$ 阶的；而 $X^{'} X$ 是一个 $k + 1$ 阶方阵，所以 $X'X(X'X)^{-1}=I$ ，这里的 $I$ 是 $k + 1$ 阶单位阵。

所以现在，我们得到了 $\sigma^2$ 的无偏估计：
$\hat\sigma^2=\frac{e'e}{n-k-1}.$
然后，就可以代入 $\hat\beta$ 的分布，构造出 $t$ 枢轴量，从而构造出每一个 $\hat\beta_i$ 的置信区间。另外，要检验某个变量是否显著（对回归有效果），也就是检验变量 $X_i$ 的系数 $\beta_i$ 是否为0，也可以利用枢轴量计算p-value，完成假设检验。这些步骤与一元线性回归的一致，这里就不再赘述。