十一、回归方程与回归系数的显著性检验
回归方程的显著性检验,检验的是我们建立线性回归方程的合理性,因为我们不能肯定模型是正确的,也就是说我们需要检验
Y
Y
Y与
x
1
,
⋯
,
x
m
x_1,\cdots,x_m
x1,⋯,xm之间是否存在着线性关系,或者只跟其中的一部分变量存在线性关系。事实上,如果
Y
Y
Y与
x
1
,
⋯
,
x
m
x_1,\cdots,x_m
x1,⋯,xm之间均无线性相关关系,则
β
i
\beta_i
βi应均为0,所以我们要检验的假设是
H
0
:
β
1
=
β
2
=
⋯
=
β
m
=
0.
H_0:\beta_1=\beta_2=\cdots =\beta_m=0.
H0:β1=β2=⋯=βm=0.
1.平方和分解
为了检验这个假设,我们需要找到一个检验统计量,平方和分解公式就提供了一种求检验统计量的方式。平方和分解公式指的是
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
+
∑
i
=
1
n
(
y
^
i
−
y
ˉ
)
2
,
\sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2,
i=1∑n(yi−yˉ)2=i=1∑n(yi−y^i)2+i=1∑n(y^i−yˉ)2,
这里
y
ˉ
=
1
n
∑
i
=
1
n
y
i
\bar y=\frac 1n\sum_{i=1}^n y_i
yˉ=n1∑i=1nyi,
y
^
i
=
β
^
0
+
β
^
1
x
i
1
+
⋯
+
β
^
m
x
i
m
\hat y_i=\hat \beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im}
y^i=β^0+β^1xi1+⋯+β^mxim,
β
^
\hat\beta
β^是
β
\beta
β的最小二乘估计即
β
^
=
(
C
′
C
)
−
1
C
′
Y
\hat\beta=(C'C)^{-1}C'Y
β^=(C′C)−1C′Y。
先进行普通的分解,即
∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n [ ( y i − y ^ i ) + ( y ^ i − y ˉ ) ] 2 = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 n ( y i − y ^ i ) 2 + ∑ i = 1 n ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 n e i ( y ^ i − y ˉ ) . \begin{aligned} \sum_{i=1}^n(y_i-\bar y)^2=&\sum_{i=1}^n[(y_i-\hat y_i)+(\hat y_i-\bar y)]^2 \\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^n (y_i-\hat y_i)(\hat y_i-\bar y)\\ =&\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n(\hat y_i-\bar y)^2+2\sum_{i=1}^ne_i(\hat y_i-\bar y). \end{aligned} i=1∑n(yi−yˉ)2===i=1∑n[(yi−y^i)+(y^i−yˉ)]2i=1∑n(yi−y^i)2+i=1∑n(y^i−yˉ)2+2i=1∑n(yi−y^i)(y^i−yˉ)i=1∑n(yi−y^i)2+i=1∑n(y^i−yˉ)2+2i=1∑nei(y^i−yˉ).
接下来只需要证明交叉项为0,有
∑ i = 1 n e i ( y ^ i − y ˉ ) = ∑ i = 1 n e i ( β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ m x i m − y ˉ ) = ( β ^ 0 − y ˉ ) ∑ i = 1 n e i + β ^ 1 ∑ i = 1 n e i x i 1 + ⋯ + β ^ m ∑ i = 1 n e i x i m \begin{aligned} &\sum_{i=1}^ne_i(\hat y_i-\bar y) \\ =&\sum_{i=1}^ne_i(\hat\beta_0+\hat\beta_1x_{i1}+\cdots+\hat\beta_mx_{im}-\bar y)\\ =&(\hat\beta_0-\bar y)\sum_{i=1}^n e_i+\hat\beta_1\sum_{i=1}^ne_ix_{i1}+\cdots+\hat\beta_m\sum_{i=1}^n e_ix_{im} \end{aligned} ==i=1∑nei(y^i−yˉ)i=1∑nei(β^0+β^1xi1+⋯+β^mxim−yˉ)(β^0−yˉ)i=1∑nei+β^1i=1∑neixi1+⋯+β^mi=1∑neixim
接下来回到最小二乘法的原理上,由于我们在前面的推导中,得到了 C ′ C β ^ = C ′ Y C'C\hat\beta=C'Y C′Cβ^=C′Y的结果,观察其第 t + 1 t+1 t+1行,有
∑ j = 0 m β ^ j ∑ i = 1 n x i t x i j = ∑ i = 1 n x i t y i ∑ j = 0 m ∑ i = 1 n β ^ j x i t x i j = ∑ i = 1 n x i t ( ∑ j = 0 m β ^ j x i j + e i ) = ∑ i = 1 n ∑ j = 0 m β ^ j x i t x i j + ∑ i = 1 n e i x i t \sum_{j=0}^m\hat\beta_j\sum_{i=1}^nx_{it}x_{ij}=\sum_{i=1}^n x_{it}y_i\\ \sum_{j=0}^m\sum_{i=1}^n \hat\beta_jx_{it}x_{ij}=\sum_{i=1}^nx_{it}(\sum_{j=0}^m\hat\beta_jx_{ij}+e_i)=\sum_{i=1}^n\sum_{j=0}^m\hat\beta_jx_{it}x_{ij}+\sum_{i=1}^ne_ix_{it} j=0∑mβ^ji=1∑nxitxij=i=1∑nxityij=0∑mi=1∑nβ^jxitxij=i=1∑nxit(j=0∑mβ^jxij+ei)=i=1∑nj=0∑mβ^jxitxij+i=1∑neixit
也就是
∑ i = 1 n e i x i t = 0. \sum_{i=1}^ne_ix_{it}=0. i=1∑neixit=0.
代入 t = 0 , 1 , ⋯ , m t=0,1,\cdots,m t=0,1,⋯,m就得到了交叉项为0的结果,所以平方和分解公式成立。
再观察平方和分解式子,左边的
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
\sum_{i=1}^n(y_i-\bar y)^2
∑i=1n(yi−yˉ)2是样本观测值对样本均值的波动大小,记作总偏差平方和
T
S
S
{\rm TSS}
TSS或
l
y
y
l_{yy}
lyy;右边的第一项
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
\sum_{i=1}^n(y_i-\hat y_i)^2
∑i=1n(yi−y^i)2是残差平方和
R
S
S
{\rm RSS}
RSS或
Q
Q
Q,第二项
∑
i
=
1
n
(
y
^
i
−
y
ˉ
)
2
\sum_{i=1}^n(\hat y_i-\bar y)^2
∑i=1n(y^i−yˉ)2是由回归曲线决定的,称为回归平方和
E
S
S
,
M
S
S
{\rm ESS,MSS}
ESS,MSS或
U
U
U。这样,式子又可以写成
T
S
S
=
E
S
S
+
R
S
S
,
l
y
y
=
U
+
Q
.
{\rm TSS}={\rm ESS}+{\rm RSS},\\ l_{yy}=U+Q.
TSS=ESS+RSS,lyy=U+Q.
2.回归方程的假设检验
对于假设检验问题
H
0
:
β
1
=
β
2
=
⋯
=
β
m
=
0
H_0:\beta_1=\beta_2=\cdots =\beta_m=0
H0:β1=β2=⋯=βm=0,如果回归曲线表现得好,残差平方和应该尽可能小,也就是
R
S
S
,
Q
{\rm RSS},Q
RSS,Q会尽可能小;所以回归曲线表现的好也体现在
E
S
S
{\rm ESS}
ESS在
T
S
S
{\rm TSS}
TSS中占据较大的比例,相应的
R
S
S
{\rm RSS}
RSS占据比例就会比较小,因此我们构造检验统计量为
E
S
S
/
R
S
S
{\rm ESS/RSS}
ESS/RSS。并且有定理指出,在
H
0
H_0
H0成立时,
Q
σ
2
∼
χ
n
−
m
−
1
2
,
U
σ
2
∼
χ
m
2
,
U
/
m
Q
/
(
n
−
m
−
1
)
=
E
S
S
/
m
R
S
S
/
(
n
−
m
−
1
)
∼
H
0
F
(
m
,
n
−
m
−
1
)
.
\frac{Q}{\sigma^2}\sim \chi^2_{n-m-1},\quad\frac{U}{\sigma^2}\sim \chi^2_m,\\ \frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1).
σ2Q∼χn−m−12,σ2U∼χm2,Q/(n−m−1)U/m=RSS/(n−m−1)ESS/m∼H0F(m,n−m−1).
如果检验统计量很大,检验的p-value很小,则应该否定
H
0
H_0
H0,就认为回归关系是存在的。
3.中心化的等价形式
在计量经济学中,我们常常用小写字母表示中心化后的数据,所以我们现在尝试将数据中心化。将回归模型
Y
=
C
β
+
ε
Y=C\beta +\varepsilon
Y=Cβ+ε中心化,得到的新回归模型可以写成如下的等价形式:
y
i
−
y
ˉ
=
β
0
∗
+
β
1
(
x
i
1
−
x
ˉ
i
)
+
⋯
+
β
m
(
x
i
m
−
x
ˉ
m
)
+
ε
i
,
(
i
=
1
,
2
,
⋯
,
n
)
ε
∼
N
n
(
0
,
σ
2
I
n
)
.
y_i-\bar y=\beta_0^*+\beta_1(x_{i1}-\bar x_i)+\cdots+\beta_m(x_{im}-\bar x_m)+\varepsilon_i,\quad (i=1,2,\cdots,n) \\ \varepsilon\sim N_n(0,\sigma^2I_n).
yi−yˉ=β0∗+β1(xi1−xˉi)+⋯+βm(xim−xˉm)+εi,(i=1,2,⋯,n)ε∼Nn(0,σ2In).
这里
β
0
∗
=
β
0
−
y
ˉ
+
∑
i
=
1
n
β
i
x
ˉ
i
\beta_0^* =\beta_0-\bar y+\sum_{i=1}^n \beta_i\bar x_i
β0∗=β0−yˉ+∑i=1nβixˉi,但事实上,中心化式子的好处是我们可以证明
β
^
0
∗
=
0
\hat \beta_0^*=0
β^0∗=0。接下来我们在矩阵形式中予以证明,试写出矩阵形式,作以下标记
β
~
=
[
β
0
∗
β
1
⋮
β
m
]
=
[
β
0
∗
B
]
,
Y
~
=
[
y
1
−
y
ˉ
y
2
−
y
ˉ
⋮
y
n
−
y
ˉ
]
,
X
~
=
[
x
11
−
x
ˉ
1
x
12
−
x
ˉ
2
⋯
x
1
m
−
x
ˉ
m
x
21
−
x
ˉ
1
x
22
−
x
ˉ
2
⋯
x
2
m
−
x
ˉ
m
⋮
⋮
⋮
x
n
1
−
x
ˉ
1
x
n
2
−
x
ˉ
2
⋯
x
n
m
−
x
ˉ
m
]
,
C
~
=
(
1
∣
X
~
)
.
\tilde \beta=\begin{bmatrix} \beta_0^* \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}=\begin{bmatrix} \beta_0^* \\ B \end{bmatrix},\quad \tilde Y=\begin{bmatrix} y_1 - \bar y \\ y_2 - \bar y \\ \vdots \\ y_n-\bar y \end{bmatrix}, \\ \tilde X=\begin{bmatrix} x_{11}-\bar x_1 & x_{12}-\bar x_2 & \cdots & x_{1m}-\bar x_m \\ x_{21}-\bar x_1 & x_{22}-\bar x_2 & \cdots & x_{2m}-\bar x_m \\ \vdots & \vdots & & \vdots \\ x_{n1}-\bar x_1 & x_{n2}-\bar x_2 & \cdots & x_{nm}-\bar x_m \end{bmatrix},\tilde C=(\boldsymbol 1|\tilde X).
β~=⎣⎢⎢⎢⎡β0∗β1⋮βm⎦⎥⎥⎥⎤=[β0∗B],Y~=⎣⎢⎢⎢⎡y1−yˉy2−yˉ⋮yn−yˉ⎦⎥⎥⎥⎤,X~=⎣⎢⎢⎢⎡x11−xˉ1x21−xˉ1⋮xn1−xˉ1x12−xˉ2x22−xˉ2⋮xn2−xˉ2⋯⋯⋯x1m−xˉmx2m−xˉm⋮xnm−xˉm⎦⎥⎥⎥⎤,C~=(1∣X~).
这样就可以把模型写成
Y
~
=
C
~
β
~
+
ε
,
ε
∼
N
n
(
0
,
σ
2
I
n
)
\tilde Y=\tilde C\tilde \beta +\varepsilon,\varepsilon\sim N_n(0,\sigma^2I_n)
Y~=C~β~+ε,ε∼Nn(0,σ2In),类似地得到
C
~
′
C
~
β
~
=
C
~
′
Y
~
\tilde C'\tilde C\tilde \beta=\tilde C'\tilde Y
C~′C~β~=C~′Y~,而
C
~
′
C
~
=
(
1
∣
X
~
)
′
(
1
∣
X
~
)
=
[
1
n
′
1
n
1
n
′
X
~
X
~
′
1
n
X
~
′
X
~
]
=
d
[
n
O
1
×
m
O
m
×
1
L
]
,
{\tilde C}'\tilde C=(\boldsymbol 1|\tilde X)'(\boldsymbol 1|\tilde X)= \begin{bmatrix} \boldsymbol 1_n'\boldsymbol 1_n & \boldsymbol 1_n'\tilde X \\ \tilde X'\boldsymbol 1_n & \tilde X'\tilde X \end{bmatrix}\stackrel{\rm d}=\begin{bmatrix} n & O_{1\times m} \\ O_{m\times 1} & L \end{bmatrix},
C~′C~=(1∣X~)′(1∣X~)=[1n′1nX~′1n1n′X~X~′X~]=d[nOm×1O1×mL],
这里
L
=
X
~
′
X
~
=
(
l
i
j
)
m
×
m
,
l
i
j
=
∑
t
=
1
n
(
x
t
i
−
x
ˉ
i
)
(
x
t
j
−
x
ˉ
j
)
L=\tilde X'\tilde X=(l_{ij})_{m\times m},l_{ij}=\sum_{t=1}^n(x_{ti}-\bar x_i)(x_{tj}-\bar x_j)
L=X~′X~=(lij)m×m,lij=∑t=1n(xti−xˉi)(xtj−xˉj),而
C
~
′
Y
~
=
(
1
n
∣
X
~
)
′
Y
~
=
[
1
n
′
Y
~
X
~
′
Y
~
]
=
d
[
0
l
]
,
\tilde C'\tilde Y=(\boldsymbol 1_n |\tilde X)'\tilde Y= \begin{bmatrix} \boldsymbol 1_n'\tilde Y \\ \tilde X'\tilde Y \end{bmatrix}\stackrel {\rm d}= \begin{bmatrix} 0 \\ l \end{bmatrix},
C~′Y~=(1n∣X~)′Y~=[1n′Y~X~′Y~]=d[0l],
这里
l
=
(
l
1
y
,
⋯
,
l
m
y
)
′
,
l
i
y
=
∑
t
=
1
n
(
x
t
i
−
x
ˉ
i
)
(
y
t
−
y
ˉ
)
l=(l_{1y},\cdots,l_{my})',l_{iy}=\sum_{t=1}^n(x_{ti}-\bar x_i)(y_t-\bar y)
l=(l1y,⋯,lmy)′,liy=∑t=1n(xti−xˉi)(yt−yˉ),这样正规方程就可以写成
[
n
O
O
L
]
[
β
^
0
∗
B
]
=
[
0
l
]
⇒
β
^
0
∗
=
β
^
0
−
y
ˉ
+
∑
i
=
1
n
β
^
i
x
ˉ
i
=
0.
\begin{bmatrix} n & O \\ O & L \end{bmatrix}\begin{bmatrix} \hat \beta_0^* \\ B \end{bmatrix}=\begin{bmatrix} 0 \\ l \end{bmatrix}\Rightarrow \hat \beta_0^*=\hat\beta_0-\bar y+\sum_{i=1}^n\hat\beta_i\bar x_i=0.
[nOOL][β^0∗B]=[0l]⇒β^0∗=β^0−yˉ+i=1∑nβ^ixˉi=0.
这也解释了为什么回归直线总会经过样本中心点,同时还可以得到正规方程的等价形式
L
B
=
l
LB=l
LB=l,即
X
~
′
X
~
B
=
X
~
′
Y
~
⇒
B
^
=
(
X
~
′
X
~
)
−
1
X
~
′
Y
~
=
L
−
1
l
,
B
^
∼
N
m
(
B
,
σ
2
L
−
1
)
.
\tilde X'\tilde XB=\tilde X'\tilde Y\Rightarrow \hat B=(\tilde X'\tilde X)^{-1}\tilde X'\tilde Y=L^{-1}l,\hat B\sim N_m(B,\sigma^2L^{-1}).
X~′X~B=X~′Y~⇒B^=(X~′X~)−1X~′Y~=L−1l,B^∼Nm(B,σ2L−1).
在给定
X
X
X时预测
Y
^
\hat Y
Y^应采用如此形式:
Y
^
−
y
ˉ
1
n
=
X
~
B
^
\hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B
Y^−yˉ1n=X~B^。并且,在此形式下回归平方和很容易表示。因为
Y
^
−
y
ˉ
1
n
=
X
~
B
^
\hat Y-\bar y\boldsymbol 1_n=\tilde X\hat B
Y^−yˉ1n=X~B^,所以
U
=
∑
i
=
1
n
(
y
^
i
−
y
ˉ
)
2
=
(
Y
^
−
y
ˉ
1
n
)
′
(
Y
^
−
y
ˉ
1
n
)
=
B
^
′
X
~
′
X
~
B
^
=
B
^
′
L
B
^
=
B
^
′
l
.
Q
=
l
y
y
−
U
.
U=\sum_{i=1}^n(\hat y_i-\bar y)^2=(\hat Y-\bar y\boldsymbol 1_n)'(\hat Y-\bar y\boldsymbol 1_n)=\hat B'\tilde X'\tilde X\hat B=\hat B'L\hat B=\hat B'l. \\ Q = l_{yy}-U.
U=i=1∑n(y^i−yˉ)2=(Y^−yˉ1n)′(Y^−yˉ1n)=B^′X~′X~B^=B^′LB^=B^′l.Q=lyy−U.
4.回归系数的假设检验
回归关系存在并不意味着每一个自变量对于随机变量 y y y的影响都是显著的,有的自变量可能跟 y y y毫不相关,把它纳入回归的范围就可能导致过拟合、模型不适用于预测新数据的问题。如果 x i x_i xi对 y y y没有影响,则在回归方程中应该有 β i = 0 \beta_i=0 βi=0,所以我们还需要对每个偏回归系数进行逐个检验,即检验如下的假设: H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0。
为了构造检验此假设的检验统计量,定义 x i x_i xi的偏回归平方和如下:
偏回归平方和:设 U U U是 x 1 , ⋯ , x m x_1,\cdots,x_m x1,⋯,xm对 Y Y Y的回归平方和, U ( i ) U(i) U(i)为去掉 x i x_i xi后,剩下 m − 1 m-1 m−1个自变量对 Y Y Y的平方和,则称变量 x i x_i xi的回归平方和是 P i = U − U ( i ) = Q ( i ) − Q P_i=U-U(i)=Q(i)-Q Pi=U−U(i)=Q(i)−Q。
其计算公式为
P
i
=
β
^
i
2
/
l
i
i
P_i=\hat \beta_i^2/l^{ii}
Pi=β^i2/lii,这里
l
i
i
l^{ii}
lii是
L
−
1
=
(
X
~
′
X
~
)
−
1
L^{-1}=(\tilde X'\tilde X)^{-1}
L−1=(X~′X~)−1的第
i
i
i个对角元素,同时可以证明
t
i
=
P
i
Q
/
(
n
−
m
−
1
)
∼
H
0
t
(
n
−
m
−
1
)
,
F
i
=
P
i
Q
/
(
n
−
m
−
1
)
∼
H
0
F
(
1
,
n
−
m
−
1
)
.
t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1).
ti=Q/(n−m−1)Pi∼H0t(n−m−1),Fi=Q/(n−m−1)Pi∼H0F(1,n−m−1).
当偏回归平方和
P
i
P_i
Pi过大时,
t
i
t_i
ti也会很大,p-value很小,就越应该否定原假设
H
0
H_0
H0,认为
β
i
≠
0
\beta_i\ne 0
βi=0。直观上理解,如果偏回归平方和很大,就说明变量
x
i
x_i
xi的删除与否对于回归平方和的影响很大,等价于对残差平方和的影响也很大,这就说明
x
i
x_i
xi是显著的;反之,如果偏回归平方和很小,就可以认为
x
i
x_i
xi在回归模型中无足轻重,不影响回归模型。
在实际应用中,要建立最优的回归方程,就是要选择合适的预报变量来决定回归方程,这指的是包含所有在显著性水平 α \alpha α下,对 Y Y Y作用显著的变量。当建立回归模型后,对所有回归系数进行假设检验,如果所有回归系数的p-value都小于 α \alpha α,就认为方程是最优的;否则,就应该剔除显著性最小的那一个(注意只能剔除一个,一般是p-value最大的),重新建立回归模型,并重复以上步骤。
5.回归方程的预报精度
最后,简要地介绍一下回归方程预报精度的问题。我们已经知道,通过样本
C
C
C,回归系数的最小方差线性无偏估计是
β
^
=
(
C
′
C
)
−
1
C
′
Y
\hat \beta=(C'C)^{-1}C'Y
β^=(C′C)−1C′Y,给定一组
x
0
=
(
1
,
x
01
,
⋯
,
x
0
m
′
)
x_0=(1,x_{01},\cdots,x_{0m}')
x0=(1,x01,⋯,x0m′)后,
y
0
y_0
y0的最佳点估计是
y
^
0
=
x
0
′
β
^
.
\hat y_0=x_0'\hat\beta.
y^0=x0′β^.
但是这个点估计的精度如何,有赖于
y
0
−
y
^
0
y_0-\hat y_0
y0−y^0的分布。显然有如下的结论:
y
^
0
∼
N
(
x
0
′
β
,
σ
2
x
0
′
(
C
′
C
)
−
1
x
0
)
,
y
0
−
y
^
0
∼
N
(
0
,
σ
2
[
1
+
x
0
′
(
C
′
C
)
−
1
x
0
]
)
.
\hat y_0\sim N(x_0'\beta,\sigma^2x_0'(C'C)^{-1}x_0), \\ y_0-\hat y_0\sim N(0,\sigma^2[1+x_0'(C'C)^{-1}x_0]).
y^0∼N(x0′β,σ2x0′(C′C)−1x0),y0−y^0∼N(0,σ2[1+x0′(C′C)−1x0]).
因此,统计量为
t
=
y
0
−
y
^
0
σ
^
1
+
x
0
′
(
C
′
C
)
−
1
x
0
∼
t
(
n
−
m
−
1
)
,
σ
^
2
=
Q
n
−
m
−
1
.
t=\frac{y_0-\hat y_0}{\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}}\sim t(n-m-1),\quad \hat\sigma^2=\frac{Q}{n-m-1}.
t=σ^1+x0′(C′C)−1x0y0−y^0∼t(n−m−1),σ^2=n−m−1Q.
基于此,可以在给定
α
\alpha
α的情况下得到
y
0
y_0
y0的置信区间。
回顾总结
-
为了检验模型的有效度,需要检验假设 H 0 : β 1 = ⋯ = β m = 0 H_0:\beta_1=\cdots =\beta_m=0 H0:β1=⋯=βm=0,检验统计量为
F = U / m Q / ( n − m − 1 ) = E S S / m R S S / ( n − m − 1 ) ∼ H 0 F ( m , n − m − 1 ) . F=\frac{U/m}{Q/(n-m-1)}=\frac{{\rm ESS}/m}{{\rm RSS}/(n-m-1)}\stackrel {H_0}\sim F(m,n-m-1). F=Q/(n−m−1)U/m=RSS/(n−m−1)ESS/m∼H0F(m,n−m−1).
如果 F F F很大,p-value很小,就否定原假设,认为回归模型有效。 -
平方和分解公式: T S S = R S S + E S S , l y y = Q + U {\rm TSS=RSS+ESS},l_{yy}=Q+U TSS=RSS+ESS,lyy=Q+U。在给定预测值后, T S S {\rm TSS} TSS就是定值,不同回归曲线有不同的回归平方和 R S S {\rm RSS} RSS,最小二乘法得出的直线有最大的 R S S {\rm RSS} RSS。拟合优度就是 R 2 = E S S / T S S R^2={\rm ESS/TSS} R2=ESS/TSS,代表回归平方和在总偏差平方和中的占比,越大代表拟合优度越高。
-
将数据中心化,可以得到正规方程的等价形式: X ~ ′ X ~ B = X ~ ′ Y ~ \tilde X'\tilde XB=\tilde X'\tilde Y X~′X~B=X~′Y~,也即 L B = l LB=l LB=l,从而 B = L − 1 l B=L^{-1}l B=L−1l。这里 X ~ , Y ~ \tilde X,\tilde Y X~,Y~都表示中心化后的数据矩阵。中心化的好处是去除了截距项 β ^ 0 ∗ \hat \beta_0^* β^0∗,这也说明
β ^ 0 = y ˉ − ∑ i = 1 m β i x ˉ i . \hat \beta_0=\bar y-\sum_{i=1}^m \beta_i\bar x_i. β^0=yˉ−i=1∑mβixˉi. -
为了检验变量的显著性,需要逐个检验假设 H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0,检验统计量为偏回归平方和的变换,即
t i = P i Q / ( n − m − 1 ) = β ^ i / l i i Q / ( n − m − 1 ) ∼ H 0 t ( n − m − 1 ) , F i = P i Q / ( n − m − 1 ) = β ^ i 2 / l i i Q / ( n − m − 1 ) ∼ H 0 F ( 1 , n − m − 1 ) . t_i=\frac{\sqrt{P_i}}{\sqrt{Q/(n-m-1)}}=\frac{\hat\beta_i/\sqrt {l^{ii}}}{Q/(n-m-1)}\stackrel {H_0}\sim t(n-m-1), \\ F_i=\frac{P_i}{Q/(n-m-1)}=\frac{\hat\beta_i^2/l^{ii}}{Q/(n-m-1)}\stackrel {H_0}\sim F(1,n-m-1). ti=Q/(n−m−1)Pi=Q/(n−m−1)β^i/lii∼H0t(n−m−1),Fi=Q/(n−m−1)Pi=Q/(n−m−1)β^i2/lii∼H0F(1,n−m−1).
这里 l i i l^{ii} lii指的是 L − 1 L^{-1} L−1的第 i i i个对角元素, P i P_i Pi指的是偏回归平方和 U − U ( i ) U-U(i) U−U(i)。如果 t i t_i ti或者 F i F_i Fi很大,p-value很小,就否定原假设,认为 x i x_i xi显著。 -
如果有一些自变量 x i x_i xi的显著性很差,则需要删除,每一步只能删除一个显著性最差、p-value最大的自变量,然后重新建立模型并计算。
-
在获得 β ^ \hat \beta β^后,预报误差服从以下正态分布: y 0 − y ^ 0 ∼ N ( 0 , σ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ) y_0-\hat y_0\sim N(0,\sigma^2(1+x_0'(C'C)^{-1}x_0)) y0−y^0∼N(0,σ2(1+x0′(C′C)−1x0)),所以构造以下枢轴量:
y 0 − y ^ 0 σ ^ 2 ( 1 + x 0 ′ ( C ′ C ) − 1 x 0 ) ∼ t ( n − m − 1 ) , σ ^ 2 = Q n − m − 1 . \frac{y_0-\hat y_0}{\sqrt{\hat \sigma^2(1+x_0'(C'C)^{-1}x_0)}}\sim t(n-m-1),\quad \hat \sigma^2=\frac{Q}{n-m-1}. σ^2(1+x0′(C′C)−1x0)y0−y^0∼t(n−m−1),σ^2=n−m−1Q.
可以构造 y 0 y_0 y0的置信水平为 α \alpha α的置信区间为 [ y 0 − d , y 0 + d ] [y_0-d,y_0+d] [y0−d,y0+d],这里
d = t α σ ^ 1 + x 0 ′ ( C ′ C ) − 1 x 0 . d=t_\alpha\hat \sigma\sqrt{1+x_0'(C'C)^{-1}x_0}. d=tασ^1+x0′(C′C)−1x0.