计量经济学复习笔记(四):多元线性回归

计量经济学复习笔记(四):多元线性回归

一元线性回归的解释变量只有一个,但是实际的模型往往没有这么简单,影响一个变量的因素可能有成百上千个。我们会希望线性回归模型中能够考虑到这些所有的因素,自然就不能再用一元线性回归,而应该将其升级为多元线性回归。但是,有了一元线性回归的基础,讨论多元线性回归可以说是轻而易举。

另外我们没必要分别讨论二元、三元等具体个数变量的回归问题,因为在线性代数的帮助下,我们能够统一讨论对任何解释变量个数的回归问题。

1、多元线性回归模型的系数求解

多元线性回归模型是用 k k k个解释变量 X 1 , ⋯   , X k X_1,\cdots,X_k X1,,Xk对被解释变量 Y Y Y进行线性拟合的模型,每一个解释变量 X i X_i Xi之前有一个回归系数 β i \beta_i βi,同时还应具有常数项 β 0 \beta_0 β0,可以视为与常数 X 0 = 1 X_0=1 X0=1相乘,所以多元线性回归模型为
Y = β 0 X 0 + β 1 X 1 + β 2 X 2 + ⋯ + β k X k + μ , (4.1) Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k+\mu, \tag{4.1} Y=β0X0+β1X1+β2X2++βkXk+μ,(4.1)
这里的 μ \mu μ依然是随机误差项。从线性回归模型中抽取 n n n个样本构成 n n n个观测,排列起来就是
Y 1 = β 0 X 10 + β 1 X 11 + β 2 X 12 + ⋯ + β k X 1 k + μ 1 , Y 2 = β 0 X 20 + β 1 X 21 + β 2 X 22 + ⋯ + β k X 2 k + μ 2 , ⋮ Y n = β 0 X n 0 + β 1 X n 1 + β 2 X n 2 + ⋯ + β k X n k + μ n . (4.2) \begin{matrix} Y_1=\beta_0X_{10}+\beta_1X_{11}+\beta_2X_{12}+\cdots+\beta_kX_{1k}+\mu_1,\\ Y_2=\beta_0X_{20}+\beta_1X_{21}+\beta_2X_{22}+\cdots+\beta_kX_{2k}+\mu_2, \\ \vdots \\ Y_n=\beta_0X_{n0}+\beta_1X_{n1}+\beta_2X_{n2}+\cdots+\beta_kX_{nk}+\mu_n.\end{matrix}\tag{4.2} Y1=β0X10+β1X11+β2X12++βkX1k+μ1,Y2=β0X20+β1X21+β2X22++βkX2k+μ2,Yn=β0Xn0+β1Xn1+β2Xn2++βkXnk+μn.(4.2)
其中 X 10 = X 20 = ⋯ = X n 0 = 1 X_{10}=X_{20}=\cdots=X_{n0}=1 X10=X20==Xn0=1。大型方程组我们会使用矩阵表示,所以引入如下的矩阵记号。
Y = [ Y 1 Y 2 ⋮ Y n ] , β = [ β 0 β 1 β 2 ⋮ β k ] , μ = [ μ 1 μ 2 ⋮ μ n ] . X = [ X 10 X 11 X 12 ⋯ X 1 k X 20 X 21 X 22 ⋯ X 2 k ⋮ ⋮ ⋮ ⋮ X n 0 X n 1 X n 2 ⋯ X n k ] . (4.3) {Y=\begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\quad \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix}, \mu=\begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix}.\\ X=\begin{bmatrix} X_{10} & X_{11} & X_{12} & \cdots & X_{1k} \\ X_{20} & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ X_{n0} & X_{n1} & X_{n2} & \cdots & X_{nk} \end{bmatrix}. } \tag{4.3} Y=Y1Y2Yn,β=β0β1β2βk,μ=μ1μ2μn.X=X10X20Xn0X11X21Xn1X12X22Xn2X1kX2kXnk.(4.3)
在这些矩阵表示中注意几点:首先, Y Y Y μ \mu μ在矩阵表示式中都是 n n n维列向量,与样本容量等长,在线性回归模型中 Y , μ Y,\mu Y,μ是随机变量,而在矩阵表示中它们是随机向量,尽管我们不在表示形式上加以区分,但我们应该根据上下文明确它们到底是什么意义; β \beta β k + 1 k+1 k+1维列向量,其长度与 Y , μ Y,\mu Y,μ没有关系,这是因为 β \beta β是依赖于变量个数的,并且加上了对应于常数项的系数(截距项) β 0 \beta_0 β0;最后, X X X是数据矩阵,且第一列都是1。在这些矩阵的定义下,多元线性回归模型的观测值们可以表示为
Y = X β + μ . (4.4) Y=X\beta+\mu.\tag{4.4} Y=Xβ+μ.(4.4)
我们的目标是求得 β \beta β的估计 β ^ \hat\beta β^,与一元线性回归一样,虽然 Y , X Y,X Y,X都是随机变量,但我们需要的是给定 X X X时的条件分布。此时依然使用OLS估计,设 β \beta β的估计量为 β ^ \hat\beta β^,则残差向量是 e = Y − X β ^ e=Y-X\hat\beta e=YXβ^,残差平方和为 Q = e ′ e Q=e'e Q=ee。为使残差平方和最小,需要对 β ^ \hat\beta β^求偏导,即
∂ Q ∂ β ^ = ∂ ∂ β ^ ( e ′ e ) = ∂ ∂ β ^ [ ( Y − X β ^ ) ′ ( Y − X β ^ ) ] = ∂ ∂ β ^ [ Y ′ Y − β ^ ′ X ′ Y − Y ′ X β ^ + β ^ ′ X ′ X β ^ ] = 2 ( X ′ X β ^ − X ′ Y ) = 0. (4.5) \begin{aligned} \frac{\partial Q}{\partial \hat\beta}=&\frac{\partial}{\partial\hat\beta}(e'e)\\ =&\frac{\partial}{\partial\hat\beta}[(Y-X\hat\beta)'(Y-X\hat\beta)]\\ =&\frac{\partial}{\partial\hat\beta}[Y'Y-\hat\beta' X'Y-Y'X\hat\beta+\hat\beta'X'X\hat\beta]\\ =&2(X'X\hat\beta-X'Y)=0. \end{aligned}\tag{4.5} β^Q====β^(ee)β^[(YXβ^)(YXβ^)]β^[YYβ^XYYXβ^+β^XXβ^]2(XXβ^XY)=0.(4.5)

于是
X ′ X β ^ = X ′ Y , (4.6) X'X\hat\beta=X'Y,\tag{4.6} XXβ^=XY,(4.6)
X ′ X X'X XX可逆,则
β ^ = ( X ′ X ) − 1 X ′ Y . (4.7) \hat\beta=(X'X)^{-1}X'Y.\tag{4.7} β^=(XX)1XY.(4.7)
这样我们就得到了 β \beta β的参数估计量 β ^ \hat\beta β^。顺带一提,由于我们将 Q Q Q表现为矩阵乘积的形式,所以对 β ^ \hat\beta β^求偏导也能得到 Q Q Q的最小值,事实上对 β ^ \hat\beta β^求矩阵微商的过程,等价于对 β ^ \hat\beta β^中的每一个分量 ( β ^ 0 , β ^ 1 , ⋯   , β ^ k ) (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k) (β^0,β^1,,β^k)求偏导,然后将每一个偏导的结果按列排布,这样令矩阵微商为0,就等价于每一个偏导数为0。这里用到的矩阵微商公式有以下两个:
∂ x ′ b ∂ x = ∂ b ′ x x = b , ∂ x ′ A x x = ( A + A ′ ) x . (4.8) \frac{\partial x'b}{\partial x}=\frac{\partial b'x}{x}=b,\frac{\partial x'Ax}{x}=(A+A')x.\tag{4.8} xxb=xbx=b,xxAx=(A+A)x.(4.8)
当然,我们不能忽略这样一个事实:想要得到这样的OLS估计量必须有 X ′ X X'X XX可逆,但是 X ′ X X'X XX在什么情况下可逆?注意到 X X X是一个 n × ( k + 1 ) n\times(k+1) n×(k+1)型矩阵, X ′ X X'X XX是一个 k + 1 k+1 k+1阶方阵,要使其可逆,则 X ′ X X'X XX满秩,也就是 r ( X ′ X ) = k + 1 r(X'X)=k+1 r(XX)=k+1。由于 r ( X ′ X ) ≤ r ( X ) ≤ min ⁡ ( n , k + 1 ) r(X'X)\le r(X)\le\min(n,k+1) r(XX)r(X)min(n,k+1),所以 X ′ X X'X XX要满秩,有以下的必要条件:

  1. n ≥ k + 1 n\ge k+1 nk+1,也就是样本观测数不小于 k + 1 k+1 k+1
  2. r ( X ) = k + 1 r(X)=k+1 r(X)=k+1,也就是 X X X的列向量组必须线性无关。

现在,我们已经认识到 X X X的列向量组应当无关,也就是 ( X 1 , ⋯   , X k ) (X_1,\cdots,X_k) (X1,,Xk)不线性相关这一基本假设需要被满足。进一步地,我们应该开始认识线性回归模型的基本假设了,我们所说的OLS估计量的优秀性质,全部依赖于线性回归模型的基本假设,如果基本假设无法被满足,我们的OLS估计量就会失去很多效果。

2、线性回归模型的基本假设

在一元线性回归模型中,我们只粗糙地提到了以下的假设:随机误差项条件零均值同方差、随机误差项条件序列不相关、任意随机误差项与解释变量不相关,以及随机误差项服从条件正态分布。事实上,一元线性回归模型的基本假设不止以上几条,它与多元线性回归模型的基本假设一致,有以下几条。

  1. 回归模型是正确假定的。

  2. 解释变量 X 1 , ⋯   , X k X_1,\cdots,X_k X1,,Xk在所抽取的样本中具有变异性(独立同分布),且不存在多重共线性。

  3. 随机误差项具有条件零均值性,即
    E ( μ i ∣ X 1 , ⋯   , X k ) = 0 , ∀ i . (4.9) \mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} E(μiX1,,Xk)=0,i.(4.9)

  4. 随机误差项具有条件同方差性与条件序列不相关性,即
    D ( μ i ∣ X 1 , ⋯   , X k ) = σ 2 , ∀ i . C o v ( μ i , μ j ∣ X 1 , ⋯   , X k ) = 0 , ∀ i ≠ j . (4.10) {\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. D(μiX1,,Xk)=σ2,i.Cov(μi,μjX1,,Xk)=0,i=j.(4.10)

  5. 随机误差项服从条件正态分布,即
    μ i ∣ X 1 , ⋯   , X k ∼ N ( 0 , σ 2 ) . (4.11) \mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} μiX1,,XkN(0,σ2).(4.11)

用矩阵符号表示,令 X X X n × ( k + 1 ) n\times (k+1) n×(k+1)型数据矩阵(也可以视为 k + 1 k+1 k+1维行随机向量,分情况而定), μ = ( μ 1 , ⋯   , μ n ) \mu=(\mu_1,\cdots,\mu_n) μ=(μ1,,μn),则

  1. r ( X ) = k + 1 r(X)=k+1 r(X)=k+1,相当于 X X X列满秩。
  2. E ( μ ∣ X ) = 0 \mathbb E(\mu|X)=0 E(μX)=0,这里 0 0 0 n n n维列向量。
  3. D ( μ ∣ X ) = σ 2 I n \mathbb D(\mu|X)=\sigma^2I_n D(μX)=σ2In,这里 I n I_n In n n n阶单位阵。
  4. μ ∣ X ∼ N n ( 0 , σ 2 I n ) \mu|X\sim N_n(0,\sigma^2I_n) μXNn(0,σ2In)

现在我们要对这些基本假设作出解释。

首先,无论是在一元线性回归还是多元线性回归,我们在假设 μ \mu μ的分布时,总是强调“条件分布”,而不是简单地说 μ \mu μ是零均值同方差序列不相关的。应当如何理解这个条件分布?我们必须认识到,实际抽取样本的过程中, ( Y , X ) (Y,X) (Y,X)都是随机变量,尤其是 X X X实际上是作为随机变量出现的,只是由于我们常常因为 X X X是可以观测的而将 X X X作为常数处理。简单举个例子,假设一维随机变量 X X X服从如下的离散分布:
P ( X = 1 ) = P ( X = − 1 ) = 0.5 , (4.12) \mathbb P(X=1)=\mathbb P(X=-1)=0.5,\tag{4.12} P(X=1)=P(X=1)=0.5,(4.12)
( μ , X ) (\mu,X) (μ,X)作为二维随机向量处理, μ \mu μ始终与 X X X数值相同,也就是 X = 1 X=1 X=1 μ = 1 \mu=1 μ=1 X = − 1 X=-1 X=1 μ = − 1 \mu=-1 μ=1,则我们有
E ( μ ) = P ( μ = 1 ) − P ( μ = − 1 ) = P ( X = 1 ) − P ( X = − 1 ) = 0 , (4.13) \mathbb E(\mu)=\mathbb P(\mu=1)-\mathbb P(\mu=-1)=\mathbb P(X=1)-\mathbb P(X=-1)=0,\tag{4.13} E(μ)=P(μ=1)P(μ=1)=P(X=1)P(X=1)=0,(4.13)
但是这个时候的 μ \mu μ是否是条件零均值的?显然不是,因为
E ( μ ∣ X = 1 ) = 1 , E ( μ ∣ X = − 1 ) = − 1. (4.14) \mathbb E(\mu|X=1)=1,\\ \mathbb E\mathbb (\mu|X=-1)=-1.\tag{4.14} E(μX=1)=1,E(μX=1)=1.(4.14)
显然这样的随机误差分布并不是我们想要的那种“随机”,因为它实际上与 X X X相关,并不是真正的随机。我们想要的随机是在任何 X X X的水平下, μ \mu μ都具有同样的分布,因此加入条件分布的约束是有必要的,理解条件分布的关键,就在于要将 X X X作为随机变量看待。

其次,我们要求回归模型是正确假定的,这指的是我们要求总体确实具有与线性回归函数的形式——否则我们用线性回归模型拟合肯定不可能用样本估计总体,因为总体回归函数与样本回归函数甚至没有相同的形式,更不用说相同的参数估计。

最后,我们要求 E ( μ ∣ X ) = 0 \mathbb E(\mu|X)=0 E(μX)=0,这包含了如下信息:
E ( μ X ) = E [ E ( μ X ∣ X ) ] = E [ X E ( μ ∣ X ) ] = 0. (4.15) \mathbb E(\mu X)=\mathbb E[\mathbb E(\mu X|X)]=\mathbb E[X\mathbb E(\mu|X)]=0.\tag{4.15} E(μX)=E[E(μXX)]=E[XE(μX)]=0.(4.15)
这也就说明 C O V ( μ , X ) = E ( μ X ) − E ( μ ) E ( X ) = 0 {\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0 COV(μ,X)=E(μX)E(μ)E(X)=0,即 μ , X \mu,X μ,X不存在任何形式的相关性。自然,其中包括了当时间指标相同时,有
E ( μ i X i ) = 0. (4.16) \mathbb E(\mu_iX_i)=0.\tag{4.16} E(μiXi)=0.(4.16)
这时候我们称解释变量 X X X与随机误差 μ \mu μ是同期不相关的,这是一个很重要的假定,至于它为什么重要,我们将在以后讨论。

3、参数估计的性质

我们已经知道在满足基本假设的前提下,一元线性回归的OLS估计量拥有BLUE性质,其实多元线性回归的OLS估计量也是如此,这也是我们引入前四条基本假设的原因之一。现在我们不讨论BLUE性的证明,直接给出 β ^ = ( X ′ X ) − 1 ( X ′ Y ) \hat\beta=(X'X)^{-1}(X'Y) β^=(XX)1(XY)是BLUE估计量的结论。

  1. β ^ \hat\beta β^ Y Y Y的线性组合,也就是说 ∀ i = 0 , 1 , ⋯   , k \forall i=0,1,\cdots,k i=0,1,,k β ^ i \hat\beta_i β^i Y 1 , ⋯   , Y n Y_1,\cdots,Y_n Y1,,Yn的线性组合。这一点是不言自明的,从 β ^ \hat\beta β^的表达式就可以看出来。
  2. β ^ \hat\beta β^ β \beta β的无偏估计量,这等价于 ∀ i = 0 , 1 , ⋯   , k \forall i=0,1,\cdots,k i=0,1,,k β ^ i \hat\beta_i β^i β 1 \beta_1 β1的无偏估计量。
  3. β ^ \hat\beta β^ β \beta β的所有线性无偏估计量中,方差最小的那个。

在一元线性回归的过程中, β ^ 1 , β ^ 0 \hat\beta_1,\hat\beta_0 β^1,β^0是最小方差的,这里的“最小”很好理解。而扩展到多元时, β ^ \hat\beta β^的方差是它的自协方差矩阵 D ( β ^ ) \mathbb D(\hat\beta) D(β^),在这种意义下的最小方差是什么,有必要说明一下。

对于两个非负定矩阵 A , B A,B A,B,如果存在另一个非负定矩阵 C C C使得 A = B + C A=B+C A=B+C,则称 A ≥ B A\ge B AB——由此构建了非负定矩阵之间的大小关系。不难看出,如果 A ≥ B A\ge B AB,则对于每一个对角元素都有 a i i ≥ b i i a_{ii}\ge b_{ii} aiibii,因为如果存在某个 i i i使得 a i i < b i i a_{ii}<b_{ii} aii<bii,则令 C = A − B C=A-B C=AB c i i < 0 c_{ii}<0 cii<0,取向量 e i e_i ei(第 i i i个元素为1,其他元素为0的列向量)可以得到
e i ′ C e i = c i i < 0 , (4.17) e_i'Ce_i=c_{ii}<0,\tag{4.17} eiCei=cii<0,(4.17)
这就说明 C C C不是一个非负定矩阵,矛盾。

因此,这里 β ^ \hat\beta β^的最小方差性,意味着 D ( β ^ ) \mathbb D(\hat\beta) D(β^)在非负定意义上最小,自然也意味着对于每一个 β ^ i \hat\beta_i β^i,它都是线性无偏估计里方差最小的。

除了 BLUE性,OLS估计量还有一个很重要的性质——一致性,而我们常常忽略这个性质的重要意义。导致我们忽略一致性的原因,一个是BLUE里不包含一致性,而好多人仅仅记住了OLS估计量的BLUE性;另一个是一致性与BLUE性表现性质不同,一致性是大样本性质,BLUE性是小样本性质。什么是大样本性质?并不是说样本量很大的性质,就是大样本性质。大样本性质与小样本性质的本质不同在于,大样本性质包含着样本容量 n → ∞ n\to \infty n的趋势,只要是 n n n趋于无穷能表现出来的性质都是大样本性质。

回到一致性上,OLS估计量的一致性指的是
β ^ → P β , (4.18) \hat\beta\stackrel {P}\to \beta,\tag{4.18} β^Pβ,(4.18)
β ^ \hat\beta β^以概率收敛于 β \beta β。稍作翻译,这个式子的意义是 ∀ ε > 0 , i = 0 , 1 , ⋯   , k \forall \varepsilon>0,i=0,1,\cdots,k ε>0,i=0,1,,k
lim ⁡ n → ∞ P ( ∣ β ^ i − β i ∣ > ε ) = 0. (4.19) \lim_{n\to \infty}\mathbb P(|\hat\beta_i-\beta_i|>\varepsilon)=0.\tag{4.19} nlimP(β^iβi>ε)=0.(4.19)
如果还是不了解一致性有什么意义,可以看下面的例子。现在我们想对某个线性回归模型进行参数估计,并且希望能达到0.001的精度,也就是每一个参数与真值的偏离值超过 ε = 0.001 \varepsilon=0.001 ε=0.001的概率都小于任意给定的置信水平 α \alpha α。显然,具有一致性的估计量可以做到这一点,因为给定了精度,我们只要通过增加抽取的样本,参数的估计量就会自动调整,并且一定是向着接近真值的方向靠近。如果某个参数估计量不具有一致性,即使你抽取再多的样本都没法达到给定的精度,这就是一致性的重要意义。

因此,我们的参数估计量具有线性性、无偏性、最小方差性(有效性)以及一致性,后三个的证明,我们将在基本假设不能满足的情况下给出,从而向你展示每一个基本假设都具有什么样的重要意义,不满足这些基本假设会有什么样的严重后果。最后,在正态性、线性性约束下,我们很容易知道 β ^ \hat\beta β^一定服从多元正态分布,所以只需要求得其均值方差即可。

无偏性保证了
E ( β ^ ) = β , (4.20) \mathbb E(\hat\beta)=\beta,\tag{4.20} E(β^)=β,(4.20)
关于方差,我们也在这里直接给出(而不给出证明,因为这依赖于基本假设)。
D ( β ^ ) = σ 2 ( X ′ X ) − 1 . (4.21) \mathbb D(\hat\beta)=\sigma^2(X'X)^{-1}.\tag{4.21} D(β^)=σ2(XX)1.(4.21)
从而
β ^ ∼ N k + 1 ( β , σ 2 ( X ′ X ) − 1 ) , (4.22) \hat\beta\sim N_{k+1}(\beta,\sigma^2(X'X)^{-1}),\tag{4.22} β^Nk+1(β,σ2(XX)1),(4.22)
自然有
β ^ i ∼ N ( β i , σ 2 ( X ′ X ) i i − 1 ) . (4.23) \hat\beta_i\sim N(\beta_i,\sigma^2(X'X)^{-1}_{ii}).\tag{4.23} β^iN(βi,σ2(XX)ii1).(4.23)
这样,我们就得到了每一个OLS估计量的分布,自然地可以用它进行区间估计与假设检验。

4、参数的区间估计和假设检验

与一元线性回归问题一样,我们需要考虑的是随机误差项方差 σ 2 \sigma^2 σ2的估计,而且我们依然会使用残差平方和 R S S {\rm RSS} RSS来估计方差。这里,我们给出一个 σ 2 \sigma^2 σ2的无偏估计的证明。

注意到 e = Y − X β ^ e=Y-X\hat\beta e=YXβ^,所以
Q = e ′ e = ( Y − X β ^ ) ′ ( Y − X β ^ ) = Y ′ Y − 2 β ^ ′ X ′ Y + β ^ ′ X ′ X β ^ = Y ′ Y − 2 Y ′ X ( X ′ X ) − 1 X ′ Y + Y ′ X ( X ′ X ) − 1 ( X ′ X ) ( X ′ X ) − 1 X ′ Y = Y ′ [ I − X ( X ′ X ) − 1 X ′ ] Y (4.24) \begin{aligned} Q=&e'e\\ =&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2\hat\beta'X'Y+\hat\beta'X'X\hat\beta\\ =&Y'Y-2Y'X(X'X)^{-1}X'Y+Y'X(X'X)^{-1}(X'X)(X'X)^{-1}X'Y\\ =&Y'[I-X(X'X)^{-1}X' ]Y \end{aligned}\tag{4.24} Q=====ee(YXβ^)(YXβ^)YY2β^XY+β^XXβ^YY2YX(XX)1XY+YX(XX)1(XX)(XX)1XYY[IX(XX)1X]Y(4.24)
这里要注意的是,不能够直接把 ( X ′ X ) − 1 (X'X)^{-1} (XX)1拆开成 X − 1 ( X ′ ) − 1 X^{-1}(X')^{-1} X1(X)1,因为 X , X ′ X,X' X,X都不是方阵,不存在逆矩阵。对其求期望,就有
E ( Q ∣ X ) = E [ β ′ X ′ ( I − X ( X ′ X ) − 1 X ′ ) X β ] + E [ μ ′ ( I − X ( X ′ X ) − 1 X ′ ) μ ] = E t r [ μ ′ ( I − X ( X ′ X ) − 1 X ′ ) μ ] = E t r [ μ ′ μ ( I − X ( X ′ X ) − 1 X ′ ) ] = σ 2 t r ( I ) − σ 2 t r [ X ( X ′ X ) − 1 X ′ ] = σ 2 t r ( I ) − σ 2 t r [ X ′ X ( X ′ X ) − 1 ] = σ 2 ( n − k − 1 ) . (4.25) \begin{aligned} \mathbb E(Q|X)=&\mathbb E[\beta'X'(I-X(X'X)^{-1}X')X\beta]+\mathbb E[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'\mu(I-X(X'X)^{-1}X')]\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X(X'X)^{-1}X']\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X'X(X'X)^{-1}] \\=&\sigma^2(n-k-1). \end{aligned}\tag{4.25} E(QX)======E[βX(IX(XX)1X)Xβ]+E[μ(IX(XX)1X)μ]Etr[μ(IX(XX)1X)μ]Etr[μμ(IX(XX)1X)]σ2tr(I)σ2tr[X(XX)1X]σ2tr(I)σ2tr[XX(XX)1]σ2(nk1).(4.25)
对上面的式子需要作几点声明。第一个等号成立,是将 Y Y Y X β + μ X\beta+\mu Xβ+μ替代后利用 E ( μ X ) = 0 \mathbb E(\mu X)=0 E(μX)=0得到的;第二个等号成立,是因为第一部分代入计算后显然等于0,第二部分是一个 1 × 1 1\times 1 1×1矩阵,其迹等于自身;第三个等号成立,是因为迹运算满足交换律:
t r ( A B ) = t r ( B A ) . (4.26) {\rm tr}(AB)={\rm tr}(BA).\tag{4.26} tr(AB)=tr(BA).(4.26)
第四个等号成立,则是将 E ( μ ′ μ ) = σ 2 \mathbb E(\mu'\mu)=\sigma^2 E(μμ)=σ2替换掉期望后将两部分拆开;第五个等号成立再次运用了迹运算的交换律;第六个等号需要格外注意,我们这里的单位阵 I I I是出现于 Y ′ Y = Y ′ I Y Y'Y=Y'IY YY=YIY ( 4.24 ) (4.24) (4.24),所以是 n n n阶的;而 X ′ X X'X XX是一个 k + 1 k+1 k+1阶方阵,所以 X ′ X ( X ′ X ) − 1 = I X'X(X'X)^{-1}=I XX(XX)1=I,这里的 I I I k + 1 k+1 k+1阶单位阵。

所以现在,我们得到了 σ 2 \sigma^2 σ2的无偏估计:
σ ^ 2 = e ′ e n − k − 1 . \hat\sigma^2=\frac{e'e}{n-k-1}. σ^2=nk1ee.
然后,就可以代入 β ^ \hat\beta β^的分布,构造出 t t t枢轴量,从而构造出每一个 β ^ i \hat\beta_i β^i的置信区间。另外,要检验某个变量是否显著(对回归有效果),也就是检验变量 X i X_i Xi的系数 β i \beta_i βi是否为0,也可以利用枢轴量计算p-value,完成假设检验。这些步骤与一元线性回归的一致,这里就不再赘述。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值