计量经济学复习笔记(四):多元线性回归
一元线性回归的解释变量只有一个,但是实际的模型往往没有这么简单,影响一个变量的因素可能有成百上千个。我们会希望线性回归模型中能够考虑到这些所有的因素,自然就不能再用一元线性回归,而应该将其升级为多元线性回归。但是,有了一元线性回归的基础,讨论多元线性回归可以说是轻而易举。
另外我们没必要分别讨论二元、三元等具体个数变量的回归问题,因为在线性代数的帮助下,我们能够统一讨论对任何解释变量个数的回归问题。
1、多元线性回归模型的系数求解
多元线性回归模型是用
k
k
k个解释变量
X
1
,
⋯
,
X
k
X_1,\cdots,X_k
X1,⋯,Xk对被解释变量
Y
Y
Y进行线性拟合的模型,每一个解释变量
X
i
X_i
Xi之前有一个回归系数
β
i
\beta_i
βi,同时还应具有常数项
β
0
\beta_0
β0,可以视为与常数
X
0
=
1
X_0=1
X0=1相乘,所以多元线性回归模型为
Y
=
β
0
X
0
+
β
1
X
1
+
β
2
X
2
+
⋯
+
β
k
X
k
+
μ
,
(4.1)
Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k+\mu, \tag{4.1}
Y=β0X0+β1X1+β2X2+⋯+βkXk+μ,(4.1)
这里的
μ
\mu
μ依然是随机误差项。从线性回归模型中抽取
n
n
n个样本构成
n
n
n个观测,排列起来就是
Y
1
=
β
0
X
10
+
β
1
X
11
+
β
2
X
12
+
⋯
+
β
k
X
1
k
+
μ
1
,
Y
2
=
β
0
X
20
+
β
1
X
21
+
β
2
X
22
+
⋯
+
β
k
X
2
k
+
μ
2
,
⋮
Y
n
=
β
0
X
n
0
+
β
1
X
n
1
+
β
2
X
n
2
+
⋯
+
β
k
X
n
k
+
μ
n
.
(4.2)
\begin{matrix} Y_1=\beta_0X_{10}+\beta_1X_{11}+\beta_2X_{12}+\cdots+\beta_kX_{1k}+\mu_1,\\ Y_2=\beta_0X_{20}+\beta_1X_{21}+\beta_2X_{22}+\cdots+\beta_kX_{2k}+\mu_2, \\ \vdots \\ Y_n=\beta_0X_{n0}+\beta_1X_{n1}+\beta_2X_{n2}+\cdots+\beta_kX_{nk}+\mu_n.\end{matrix}\tag{4.2}
Y1=β0X10+β1X11+β2X12+⋯+βkX1k+μ1,Y2=β0X20+β1X21+β2X22+⋯+βkX2k+μ2,⋮Yn=β0Xn0+β1Xn1+β2Xn2+⋯+βkXnk+μn.(4.2)
其中
X
10
=
X
20
=
⋯
=
X
n
0
=
1
X_{10}=X_{20}=\cdots=X_{n0}=1
X10=X20=⋯=Xn0=1。大型方程组我们会使用矩阵表示,所以引入如下的矩阵记号。
Y
=
[
Y
1
Y
2
⋮
Y
n
]
,
β
=
[
β
0
β
1
β
2
⋮
β
k
]
,
μ
=
[
μ
1
μ
2
⋮
μ
n
]
.
X
=
[
X
10
X
11
X
12
⋯
X
1
k
X
20
X
21
X
22
⋯
X
2
k
⋮
⋮
⋮
⋮
X
n
0
X
n
1
X
n
2
⋯
X
n
k
]
.
(4.3)
{Y=\begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\quad \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix}, \mu=\begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix}.\\ X=\begin{bmatrix} X_{10} & X_{11} & X_{12} & \cdots & X_{1k} \\ X_{20} & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ X_{n0} & X_{n1} & X_{n2} & \cdots & X_{nk} \end{bmatrix}. } \tag{4.3}
Y=⎣⎢⎢⎢⎡Y1Y2⋮Yn⎦⎥⎥⎥⎤,β=⎣⎢⎢⎢⎢⎢⎡β0β1β2⋮βk⎦⎥⎥⎥⎥⎥⎤,μ=⎣⎢⎢⎢⎡μ1μ2⋮μn⎦⎥⎥⎥⎤.X=⎣⎢⎢⎢⎡X10X20⋮Xn0X11X21⋮Xn1X12X22⋮Xn2⋯⋯⋯X1kX2k⋮Xnk⎦⎥⎥⎥⎤.(4.3)
在这些矩阵表示中注意几点:首先,
Y
Y
Y和
μ
\mu
μ在矩阵表示式中都是
n
n
n维列向量,与样本容量等长,在线性回归模型中
Y
,
μ
Y,\mu
Y,μ是随机变量,而在矩阵表示中它们是随机向量,尽管我们不在表示形式上加以区分,但我们应该根据上下文明确它们到底是什么意义;
β
\beta
β是
k
+
1
k+1
k+1维列向量,其长度与
Y
,
μ
Y,\mu
Y,μ没有关系,这是因为
β
\beta
β是依赖于变量个数的,并且加上了对应于常数项的系数(截距项)
β
0
\beta_0
β0;最后,
X
X
X是数据矩阵,且第一列都是1。在这些矩阵的定义下,多元线性回归模型的观测值们可以表示为
Y
=
X
β
+
μ
.
(4.4)
Y=X\beta+\mu.\tag{4.4}
Y=Xβ+μ.(4.4)
我们的目标是求得
β
\beta
β的估计
β
^
\hat\beta
β^,与一元线性回归一样,虽然
Y
,
X
Y,X
Y,X都是随机变量,但我们需要的是给定
X
X
X时的条件分布。此时依然使用OLS估计,设
β
\beta
β的估计量为
β
^
\hat\beta
β^,则残差向量是
e
=
Y
−
X
β
^
e=Y-X\hat\beta
e=Y−Xβ^,残差平方和为
Q
=
e
′
e
Q=e'e
Q=e′e。为使残差平方和最小,需要对
β
^
\hat\beta
β^求偏导,即
∂
Q
∂
β
^
=
∂
∂
β
^
(
e
′
e
)
=
∂
∂
β
^
[
(
Y
−
X
β
^
)
′
(
Y
−
X
β
^
)
]
=
∂
∂
β
^
[
Y
′
Y
−
β
^
′
X
′
Y
−
Y
′
X
β
^
+
β
^
′
X
′
X
β
^
]
=
2
(
X
′
X
β
^
−
X
′
Y
)
=
0.
(4.5)
\begin{aligned} \frac{\partial Q}{\partial \hat\beta}=&\frac{\partial}{\partial\hat\beta}(e'e)\\ =&\frac{\partial}{\partial\hat\beta}[(Y-X\hat\beta)'(Y-X\hat\beta)]\\ =&\frac{\partial}{\partial\hat\beta}[Y'Y-\hat\beta' X'Y-Y'X\hat\beta+\hat\beta'X'X\hat\beta]\\ =&2(X'X\hat\beta-X'Y)=0. \end{aligned}\tag{4.5}
∂β^∂Q====∂β^∂(e′e)∂β^∂[(Y−Xβ^)′(Y−Xβ^)]∂β^∂[Y′Y−β^′X′Y−Y′Xβ^+β^′X′Xβ^]2(X′Xβ^−X′Y)=0.(4.5)
于是
X
′
X
β
^
=
X
′
Y
,
(4.6)
X'X\hat\beta=X'Y,\tag{4.6}
X′Xβ^=X′Y,(4.6)
若
X
′
X
X'X
X′X可逆,则
β
^
=
(
X
′
X
)
−
1
X
′
Y
.
(4.7)
\hat\beta=(X'X)^{-1}X'Y.\tag{4.7}
β^=(X′X)−1X′Y.(4.7)
这样我们就得到了
β
\beta
β的参数估计量
β
^
\hat\beta
β^。顺带一提,由于我们将
Q
Q
Q表现为矩阵乘积的形式,所以对
β
^
\hat\beta
β^求偏导也能得到
Q
Q
Q的最小值,事实上对
β
^
\hat\beta
β^求矩阵微商的过程,等价于对
β
^
\hat\beta
β^中的每一个分量
(
β
^
0
,
β
^
1
,
⋯
,
β
^
k
)
(\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k)
(β^0,β^1,⋯,β^k)求偏导,然后将每一个偏导的结果按列排布,这样令矩阵微商为0,就等价于每一个偏导数为0。这里用到的矩阵微商公式有以下两个:
∂
x
′
b
∂
x
=
∂
b
′
x
x
=
b
,
∂
x
′
A
x
x
=
(
A
+
A
′
)
x
.
(4.8)
\frac{\partial x'b}{\partial x}=\frac{\partial b'x}{x}=b,\frac{\partial x'Ax}{x}=(A+A')x.\tag{4.8}
∂x∂x′b=x∂b′x=b,x∂x′Ax=(A+A′)x.(4.8)
当然,我们不能忽略这样一个事实:想要得到这样的OLS估计量必须有
X
′
X
X'X
X′X可逆,但是
X
′
X
X'X
X′X在什么情况下可逆?注意到
X
X
X是一个
n
×
(
k
+
1
)
n\times(k+1)
n×(k+1)型矩阵,
X
′
X
X'X
X′X是一个
k
+
1
k+1
k+1阶方阵,要使其可逆,则
X
′
X
X'X
X′X满秩,也就是
r
(
X
′
X
)
=
k
+
1
r(X'X)=k+1
r(X′X)=k+1。由于
r
(
X
′
X
)
≤
r
(
X
)
≤
min
(
n
,
k
+
1
)
r(X'X)\le r(X)\le\min(n,k+1)
r(X′X)≤r(X)≤min(n,k+1),所以
X
′
X
X'X
X′X要满秩,有以下的必要条件:
- n ≥ k + 1 n\ge k+1 n≥k+1,也就是样本观测数不小于 k + 1 k+1 k+1;
- r ( X ) = k + 1 r(X)=k+1 r(X)=k+1,也就是 X X X的列向量组必须线性无关。
现在,我们已经认识到 X X X的列向量组应当无关,也就是 ( X 1 , ⋯ , X k ) (X_1,\cdots,X_k) (X1,⋯,Xk)不线性相关这一基本假设需要被满足。进一步地,我们应该开始认识线性回归模型的基本假设了,我们所说的OLS估计量的优秀性质,全部依赖于线性回归模型的基本假设,如果基本假设无法被满足,我们的OLS估计量就会失去很多效果。
2、线性回归模型的基本假设
在一元线性回归模型中,我们只粗糙地提到了以下的假设:随机误差项条件零均值同方差、随机误差项条件序列不相关、任意随机误差项与解释变量不相关,以及随机误差项服从条件正态分布。事实上,一元线性回归模型的基本假设不止以上几条,它与多元线性回归模型的基本假设一致,有以下几条。
-
回归模型是正确假定的。
-
解释变量 X 1 , ⋯ , X k X_1,\cdots,X_k X1,⋯,Xk在所抽取的样本中具有变异性(独立同分布),且不存在多重共线性。
-
随机误差项具有条件零均值性,即
E ( μ i ∣ X 1 , ⋯ , X k ) = 0 , ∀ i . (4.9) \mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} E(μi∣X1,⋯,Xk)=0,∀i.(4.9) -
随机误差项具有条件同方差性与条件序列不相关性,即
D ( μ i ∣ X 1 , ⋯ , X k ) = σ 2 , ∀ i . C o v ( μ i , μ j ∣ X 1 , ⋯ , X k ) = 0 , ∀ i ≠ j . (4.10) {\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. D(μi∣X1,⋯,Xk)=σ2,∀i.Cov(μi,μj∣X1,⋯,Xk)=0,∀i=j.(4.10) -
随机误差项服从条件正态分布,即
μ i ∣ X 1 , ⋯ , X k ∼ N ( 0 , σ 2 ) . (4.11) \mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} μi∣X1,⋯,Xk∼N(0,σ2).(4.11)
用矩阵符号表示,令 X X X为 n × ( k + 1 ) n\times (k+1) n×(k+1)型数据矩阵(也可以视为 k + 1 k+1 k+1维行随机向量,分情况而定), μ = ( μ 1 , ⋯ , μ n ) \mu=(\mu_1,\cdots,\mu_n) μ=(μ1,⋯,μn),则
- r ( X ) = k + 1 r(X)=k+1 r(X)=k+1,相当于 X X X列满秩。
- E ( μ ∣ X ) = 0 \mathbb E(\mu|X)=0 E(μ∣X)=0,这里 0 0 0是 n n n维列向量。
- D ( μ ∣ X ) = σ 2 I n \mathbb D(\mu|X)=\sigma^2I_n D(μ∣X)=σ2In,这里 I n I_n In是 n n n阶单位阵。
- μ ∣ X ∼ N n ( 0 , σ 2 I n ) \mu|X\sim N_n(0,\sigma^2I_n) μ∣X∼Nn(0,σ2In)。
现在我们要对这些基本假设作出解释。
首先,无论是在一元线性回归还是多元线性回归,我们在假设
μ
\mu
μ的分布时,总是强调“条件分布”,而不是简单地说
μ
\mu
μ是零均值同方差序列不相关的。应当如何理解这个条件分布?我们必须认识到,实际抽取样本的过程中,
(
Y
,
X
)
(Y,X)
(Y,X)都是随机变量,尤其是
X
X
X实际上是作为随机变量出现的,只是由于我们常常因为
X
X
X是可以观测的而将
X
X
X作为常数处理。简单举个例子,假设一维随机变量
X
X
X服从如下的离散分布:
P
(
X
=
1
)
=
P
(
X
=
−
1
)
=
0.5
,
(4.12)
\mathbb P(X=1)=\mathbb P(X=-1)=0.5,\tag{4.12}
P(X=1)=P(X=−1)=0.5,(4.12)
将
(
μ
,
X
)
(\mu,X)
(μ,X)作为二维随机向量处理,
μ
\mu
μ始终与
X
X
X数值相同,也就是
X
=
1
X=1
X=1时
μ
=
1
\mu=1
μ=1,
X
=
−
1
X=-1
X=−1时
μ
=
−
1
\mu=-1
μ=−1,则我们有
E
(
μ
)
=
P
(
μ
=
1
)
−
P
(
μ
=
−
1
)
=
P
(
X
=
1
)
−
P
(
X
=
−
1
)
=
0
,
(4.13)
\mathbb E(\mu)=\mathbb P(\mu=1)-\mathbb P(\mu=-1)=\mathbb P(X=1)-\mathbb P(X=-1)=0,\tag{4.13}
E(μ)=P(μ=1)−P(μ=−1)=P(X=1)−P(X=−1)=0,(4.13)
但是这个时候的
μ
\mu
μ是否是条件零均值的?显然不是,因为
E
(
μ
∣
X
=
1
)
=
1
,
E
(
μ
∣
X
=
−
1
)
=
−
1.
(4.14)
\mathbb E(\mu|X=1)=1,\\ \mathbb E\mathbb (\mu|X=-1)=-1.\tag{4.14}
E(μ∣X=1)=1,E(μ∣X=−1)=−1.(4.14)
显然这样的随机误差分布并不是我们想要的那种“随机”,因为它实际上与
X
X
X相关,并不是真正的随机。我们想要的随机是在任何
X
X
X的水平下,
μ
\mu
μ都具有同样的分布,因此加入条件分布的约束是有必要的,理解条件分布的关键,就在于要将
X
X
X作为随机变量看待。
其次,我们要求回归模型是正确假定的,这指的是我们要求总体确实具有与线性回归函数的形式——否则我们用线性回归模型拟合肯定不可能用样本估计总体,因为总体回归函数与样本回归函数甚至没有相同的形式,更不用说相同的参数估计。
最后,我们要求
E
(
μ
∣
X
)
=
0
\mathbb E(\mu|X)=0
E(μ∣X)=0,这包含了如下信息:
E
(
μ
X
)
=
E
[
E
(
μ
X
∣
X
)
]
=
E
[
X
E
(
μ
∣
X
)
]
=
0.
(4.15)
\mathbb E(\mu X)=\mathbb E[\mathbb E(\mu X|X)]=\mathbb E[X\mathbb E(\mu|X)]=0.\tag{4.15}
E(μX)=E[E(μX∣X)]=E[XE(μ∣X)]=0.(4.15)
这也就说明
C
O
V
(
μ
,
X
)
=
E
(
μ
X
)
−
E
(
μ
)
E
(
X
)
=
0
{\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0
COV(μ,X)=E(μX)−E(μ)E(X)=0,即
μ
,
X
\mu,X
μ,X不存在任何形式的相关性。自然,其中包括了当时间指标相同时,有
E
(
μ
i
X
i
)
=
0.
(4.16)
\mathbb E(\mu_iX_i)=0.\tag{4.16}
E(μiXi)=0.(4.16)
这时候我们称解释变量
X
X
X与随机误差
μ
\mu
μ是同期不相关的,这是一个很重要的假定,至于它为什么重要,我们将在以后讨论。
3、参数估计的性质
我们已经知道在满足基本假设的前提下,一元线性回归的OLS估计量拥有BLUE性质,其实多元线性回归的OLS估计量也是如此,这也是我们引入前四条基本假设的原因之一。现在我们不讨论BLUE性的证明,直接给出 β ^ = ( X ′ X ) − 1 ( X ′ Y ) \hat\beta=(X'X)^{-1}(X'Y) β^=(X′X)−1(X′Y)是BLUE估计量的结论。
- β ^ \hat\beta β^是 Y Y Y的线性组合,也就是说 ∀ i = 0 , 1 , ⋯ , k \forall i=0,1,\cdots,k ∀i=0,1,⋯,k, β ^ i \hat\beta_i β^i是 Y 1 , ⋯ , Y n Y_1,\cdots,Y_n Y1,⋯,Yn的线性组合。这一点是不言自明的,从 β ^ \hat\beta β^的表达式就可以看出来。
- β ^ \hat\beta β^是 β \beta β的无偏估计量,这等价于 ∀ i = 0 , 1 , ⋯ , k \forall i=0,1,\cdots,k ∀i=0,1,⋯,k, β ^ i \hat\beta_i β^i是 β 1 \beta_1 β1的无偏估计量。
- β ^ \hat\beta β^是 β \beta β的所有线性无偏估计量中,方差最小的那个。
在一元线性回归的过程中, β ^ 1 , β ^ 0 \hat\beta_1,\hat\beta_0 β^1,β^0是最小方差的,这里的“最小”很好理解。而扩展到多元时, β ^ \hat\beta β^的方差是它的自协方差矩阵 D ( β ^ ) \mathbb D(\hat\beta) D(β^),在这种意义下的最小方差是什么,有必要说明一下。
对于两个非负定矩阵
A
,
B
A,B
A,B,如果存在另一个非负定矩阵
C
C
C使得
A
=
B
+
C
A=B+C
A=B+C,则称
A
≥
B
A\ge B
A≥B——由此构建了非负定矩阵之间的大小关系。不难看出,如果
A
≥
B
A\ge B
A≥B,则对于每一个对角元素都有
a
i
i
≥
b
i
i
a_{ii}\ge b_{ii}
aii≥bii,因为如果存在某个
i
i
i使得
a
i
i
<
b
i
i
a_{ii}<b_{ii}
aii<bii,则令
C
=
A
−
B
C=A-B
C=A−B,
c
i
i
<
0
c_{ii}<0
cii<0,取向量
e
i
e_i
ei(第
i
i
i个元素为1,其他元素为0的列向量)可以得到
e
i
′
C
e
i
=
c
i
i
<
0
,
(4.17)
e_i'Ce_i=c_{ii}<0,\tag{4.17}
ei′Cei=cii<0,(4.17)
这就说明
C
C
C不是一个非负定矩阵,矛盾。
因此,这里 β ^ \hat\beta β^的最小方差性,意味着 D ( β ^ ) \mathbb D(\hat\beta) D(β^)在非负定意义上最小,自然也意味着对于每一个 β ^ i \hat\beta_i β^i,它都是线性无偏估计里方差最小的。
除了 BLUE性,OLS估计量还有一个很重要的性质——一致性,而我们常常忽略这个性质的重要意义。导致我们忽略一致性的原因,一个是BLUE里不包含一致性,而好多人仅仅记住了OLS估计量的BLUE性;另一个是一致性与BLUE性表现性质不同,一致性是大样本性质,BLUE性是小样本性质。什么是大样本性质?并不是说样本量很大的性质,就是大样本性质。大样本性质与小样本性质的本质不同在于,大样本性质包含着样本容量 n → ∞ n\to \infty n→∞的趋势,只要是 n n n趋于无穷能表现出来的性质都是大样本性质。
回到一致性上,OLS估计量的一致性指的是
β
^
→
P
β
,
(4.18)
\hat\beta\stackrel {P}\to \beta,\tag{4.18}
β^→Pβ,(4.18)
即
β
^
\hat\beta
β^以概率收敛于
β
\beta
β。稍作翻译,这个式子的意义是
∀
ε
>
0
,
i
=
0
,
1
,
⋯
,
k
\forall \varepsilon>0,i=0,1,\cdots,k
∀ε>0,i=0,1,⋯,k,
lim
n
→
∞
P
(
∣
β
^
i
−
β
i
∣
>
ε
)
=
0.
(4.19)
\lim_{n\to \infty}\mathbb P(|\hat\beta_i-\beta_i|>\varepsilon)=0.\tag{4.19}
n→∞limP(∣β^i−βi∣>ε)=0.(4.19)
如果还是不了解一致性有什么意义,可以看下面的例子。现在我们想对某个线性回归模型进行参数估计,并且希望能达到0.001的精度,也就是每一个参数与真值的偏离值超过
ε
=
0.001
\varepsilon=0.001
ε=0.001的概率都小于任意给定的置信水平
α
\alpha
α。显然,具有一致性的估计量可以做到这一点,因为给定了精度,我们只要通过增加抽取的样本,参数的估计量就会自动调整,并且一定是向着接近真值的方向靠近。如果某个参数估计量不具有一致性,即使你抽取再多的样本都没法达到给定的精度,这就是一致性的重要意义。
因此,我们的参数估计量具有线性性、无偏性、最小方差性(有效性)以及一致性,后三个的证明,我们将在基本假设不能满足的情况下给出,从而向你展示每一个基本假设都具有什么样的重要意义,不满足这些基本假设会有什么样的严重后果。最后,在正态性、线性性约束下,我们很容易知道 β ^ \hat\beta β^一定服从多元正态分布,所以只需要求得其均值方差即可。
无偏性保证了
E
(
β
^
)
=
β
,
(4.20)
\mathbb E(\hat\beta)=\beta,\tag{4.20}
E(β^)=β,(4.20)
关于方差,我们也在这里直接给出(而不给出证明,因为这依赖于基本假设)。
D
(
β
^
)
=
σ
2
(
X
′
X
)
−
1
.
(4.21)
\mathbb D(\hat\beta)=\sigma^2(X'X)^{-1}.\tag{4.21}
D(β^)=σ2(X′X)−1.(4.21)
从而
β
^
∼
N
k
+
1
(
β
,
σ
2
(
X
′
X
)
−
1
)
,
(4.22)
\hat\beta\sim N_{k+1}(\beta,\sigma^2(X'X)^{-1}),\tag{4.22}
β^∼Nk+1(β,σ2(X′X)−1),(4.22)
自然有
β
^
i
∼
N
(
β
i
,
σ
2
(
X
′
X
)
i
i
−
1
)
.
(4.23)
\hat\beta_i\sim N(\beta_i,\sigma^2(X'X)^{-1}_{ii}).\tag{4.23}
β^i∼N(βi,σ2(X′X)ii−1).(4.23)
这样,我们就得到了每一个OLS估计量的分布,自然地可以用它进行区间估计与假设检验。
4、参数的区间估计和假设检验
与一元线性回归问题一样,我们需要考虑的是随机误差项方差 σ 2 \sigma^2 σ2的估计,而且我们依然会使用残差平方和 R S S {\rm RSS} RSS来估计方差。这里,我们给出一个 σ 2 \sigma^2 σ2的无偏估计的证明。
注意到
e
=
Y
−
X
β
^
e=Y-X\hat\beta
e=Y−Xβ^,所以
Q
=
e
′
e
=
(
Y
−
X
β
^
)
′
(
Y
−
X
β
^
)
=
Y
′
Y
−
2
β
^
′
X
′
Y
+
β
^
′
X
′
X
β
^
=
Y
′
Y
−
2
Y
′
X
(
X
′
X
)
−
1
X
′
Y
+
Y
′
X
(
X
′
X
)
−
1
(
X
′
X
)
(
X
′
X
)
−
1
X
′
Y
=
Y
′
[
I
−
X
(
X
′
X
)
−
1
X
′
]
Y
(4.24)
\begin{aligned} Q=&e'e\\ =&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2\hat\beta'X'Y+\hat\beta'X'X\hat\beta\\ =&Y'Y-2Y'X(X'X)^{-1}X'Y+Y'X(X'X)^{-1}(X'X)(X'X)^{-1}X'Y\\ =&Y'[I-X(X'X)^{-1}X' ]Y \end{aligned}\tag{4.24}
Q=====e′e(Y−Xβ^)′(Y−Xβ^)Y′Y−2β^′X′Y+β^′X′Xβ^Y′Y−2Y′X(X′X)−1X′Y+Y′X(X′X)−1(X′X)(X′X)−1X′YY′[I−X(X′X)−1X′]Y(4.24)
这里要注意的是,不能够直接把
(
X
′
X
)
−
1
(X'X)^{-1}
(X′X)−1拆开成
X
−
1
(
X
′
)
−
1
X^{-1}(X')^{-1}
X−1(X′)−1,因为
X
,
X
′
X,X'
X,X′都不是方阵,不存在逆矩阵。对其求期望,就有
E
(
Q
∣
X
)
=
E
[
β
′
X
′
(
I
−
X
(
X
′
X
)
−
1
X
′
)
X
β
]
+
E
[
μ
′
(
I
−
X
(
X
′
X
)
−
1
X
′
)
μ
]
=
E
t
r
[
μ
′
(
I
−
X
(
X
′
X
)
−
1
X
′
)
μ
]
=
E
t
r
[
μ
′
μ
(
I
−
X
(
X
′
X
)
−
1
X
′
)
]
=
σ
2
t
r
(
I
)
−
σ
2
t
r
[
X
(
X
′
X
)
−
1
X
′
]
=
σ
2
t
r
(
I
)
−
σ
2
t
r
[
X
′
X
(
X
′
X
)
−
1
]
=
σ
2
(
n
−
k
−
1
)
.
(4.25)
\begin{aligned} \mathbb E(Q|X)=&\mathbb E[\beta'X'(I-X(X'X)^{-1}X')X\beta]+\mathbb E[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'\mu(I-X(X'X)^{-1}X')]\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X(X'X)^{-1}X']\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X'X(X'X)^{-1}] \\=&\sigma^2(n-k-1). \end{aligned}\tag{4.25}
E(Q∣X)======E[β′X′(I−X(X′X)−1X′)Xβ]+E[μ′(I−X(X′X)−1X′)μ]Etr[μ′(I−X(X′X)−1X′)μ]Etr[μ′μ(I−X(X′X)−1X′)]σ2tr(I)−σ2tr[X(X′X)−1X′]σ2tr(I)−σ2tr[X′X(X′X)−1]σ2(n−k−1).(4.25)
对上面的式子需要作几点声明。第一个等号成立,是将
Y
Y
Y用
X
β
+
μ
X\beta+\mu
Xβ+μ替代后利用
E
(
μ
X
)
=
0
\mathbb E(\mu X)=0
E(μX)=0得到的;第二个等号成立,是因为第一部分代入计算后显然等于0,第二部分是一个
1
×
1
1\times 1
1×1矩阵,其迹等于自身;第三个等号成立,是因为迹运算满足交换律:
t
r
(
A
B
)
=
t
r
(
B
A
)
.
(4.26)
{\rm tr}(AB)={\rm tr}(BA).\tag{4.26}
tr(AB)=tr(BA).(4.26)
第四个等号成立,则是将
E
(
μ
′
μ
)
=
σ
2
\mathbb E(\mu'\mu)=\sigma^2
E(μ′μ)=σ2替换掉期望后将两部分拆开;第五个等号成立再次运用了迹运算的交换律;第六个等号需要格外注意,我们这里的单位阵
I
I
I是出现于
Y
′
Y
=
Y
′
I
Y
Y'Y=Y'IY
Y′Y=Y′IY的
(
4.24
)
(4.24)
(4.24),所以是
n
n
n阶的;而
X
′
X
X'X
X′X是一个
k
+
1
k+1
k+1阶方阵,所以
X
′
X
(
X
′
X
)
−
1
=
I
X'X(X'X)^{-1}=I
X′X(X′X)−1=I,这里的
I
I
I是
k
+
1
k+1
k+1阶单位阵。
所以现在,我们得到了
σ
2
\sigma^2
σ2的无偏估计:
σ
^
2
=
e
′
e
n
−
k
−
1
.
\hat\sigma^2=\frac{e'e}{n-k-1}.
σ^2=n−k−1e′e.
然后,就可以代入
β
^
\hat\beta
β^的分布,构造出
t
t
t枢轴量,从而构造出每一个
β
^
i
\hat\beta_i
β^i的置信区间。另外,要检验某个变量是否显著(对回归有效果),也就是检验变量
X
i
X_i
Xi的系数
β
i
\beta_i
βi是否为0,也可以利用枢轴量计算p-value,完成假设检验。这些步骤与一元线性回归的一致,这里就不再赘述。