线性模型
线性模型是一类统计模型的总称,它包括了线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型(或称方差分量模型)等。许多生物、医学、经济、管理、地质、气象、农业、工业、工程技术等领域的现象都可以用线性模型来近似描述。因此线性模型成为现代统计学中应用最为广泛的模型之一。这里将简单介绍线性模型的基本理论和方法以及实际应用。
1. 线性回归模型
线性回归模型是最常见的一类线性模型,它的数学基础是回归分析,即用回归分析方法建立线性模型,用以揭示经济现象中的因果关系,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究。线性回归模型根据所涉及变量的多少不同,可以分为简单线性回归模型和多元线性回归模型。
1.1 一元线性回归模型
一元线性回归模型又称为简单线性回归模型,是指两个变量之间的回归。其一般形式为:
Y
=
β
0
+
β
1
X
+
e
Y=\beta _0+\beta _1X+e
Y=β0+β1X+e
其中,Y通常称为因变量或被解释变量,X称为自变量或解释变量。
β
0
\beta _0
β0和
β
1
\beta _1
β1为模型的待估参数,e为随机误差项。
对于一元线性回归模型,满足如下基本假设:
(1)随机误差项e是一个期望值为0的随机向量,即
E
(
e
)
=
0
E\left( e \right) =0
E(e)=0。对于一个给定的X值,Y的期望值为
E
(
Y
)
=
β
0
+
β
1
X
E\left( Y \right) =\beta _0+\beta _1X
E(Y)=β0+β1X
(2)对于所有的X值,随机误差项e的方差都相同。即
V
a
r
(
e
i
)
=
σ
2
Var\left( e_i \right) =\sigma ^2
Var(ei)=σ2
(3)误差项e是一个服从正态分布的随机向量,且相互独立。即
e
∼
N
(
0
,
σ
2
)
e\sim N\left( 0,\sigma ^2 \right)
e∼N(0,σ2)
总体回归参数
β
0
\beta _0
β0和
β
1
\beta _1
β1是未知的,必须利用样本数据去估计。用样本统计量
β
^
0
\hat{\beta}_0
β^0和
β
^
1
\hat{\beta}_1
β^1代替回归方程中的未知参数。可以得到估计的回归方程为:
Y
^
=
β
^
0
+
β
^
1
X
\hat{Y}=\hat{\beta}_0+\hat{\beta}_1X
Y^=β^0+β^1X
回归系数的确定可以运用最小二乘法估计回归系数。最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求得
β
0
\beta _0
β0和
β
1
\beta _1
β1的方法。即
Q
(
β
^
0
,
β
^
1
)
=
∑
i
=
1
n
e
i
2
=
∑
i
=
1
n
(
Y
i
−
Y
^
i
)
2
=
∑
i
=
1
n
(
Y
i
−
β
^
0
−
β
^
1
X
i
)
2
=
最小
Q\left( \hat{\beta}_0,\hat{\beta}_1 \right) =\sum_{i=1}^n{e_i^2=}\sum_{i=1}^n{\left( Y_i-\hat{Y}_i \right) ^2=}\sum_{i=1}^n{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_i \right) ^2=}\text{最小}
Q(β^0,β^1)=i=1∑nei2=i=1∑n(Yi−Y^i)2=i=1∑n(Yi−β^0−β^1Xi)2=最小
由多元微分学可知,使Q达到最小的
β
0
\beta _0
β0和
β
1
\beta _1
β1必须满足
{
∂
Q
∂
β
0
=
−
2
∑
i
=
1
n
(
Y
i
−
β
^
0
−
β
^
1
X
i
)
=
0
∂
Q
∂
β
1
=
−
2
∑
i
=
1
n
(
Y
i
−
β
^
0
−
β
^
1
X
i
)
X
i
=
0
\left\{ \begin{array}{l} \frac{\partial Q}{\partial \beta _0}=-2\sum_{i=1}^n{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_i \right)}=0\\ \\ \frac{\partial Q}{\partial \beta _1}=-2\sum_{i=1}^n{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_i \right)}X_i=0\\ \end{array} \right.
⎩⎪⎪⎨⎪⎪⎧∂β0∂Q=−2∑i=1n(Yi−β^0−β^1Xi)=0∂β1∂Q=−2∑i=1n(Yi−β^0−β^1Xi)Xi=0
求解上述方程可解得:
{
β
^
1
=
n
∑
Y
i
X
i
−
∑
Y
i
∑
X
i
n
∑
X
i
2
−
(
∑
X
i
)
2
β
^
0
=
Y
ˉ
−
β
^
1
X
ˉ
\left\{ \begin{array}{l} \hat{\beta}_1=\frac{n\sum{Y_iX_i-\sum{Y_i\sum{X_i}}}}{n\sum{X_i^2-\left( \sum{X_i} \right) ^2}}\\ \\ \hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X}\\ \end{array} \right.
⎩⎪⎨⎪⎧β^1=n∑Xi2−(∑Xi)2n∑YiXi−∑Yi∑Xiβ^0=Yˉ−β^1Xˉ
一元线性回归模型的统计检验主要包括拟合优度检验、变量的显著性检验及参数检验的置信区间估计。
一、拟合优度检验
Y的观测值围绕其均值的总离差平方和可以分解为两个部分:一个部分来自回归线,另一部分则来自随机势力。因此,可用来自回归线的平方和ESS占Y的总离差平方和TSS的比例来判断样本回归线与样本观测值的拟合优度。因此根据上述关系可以用
R
2
=
E
S
S
T
S
S
=
∑
i
=
1
n
(
Y
^
i
−
Y
ˉ
)
2
∑
i
=
1
n
(
Y
i
−
Y
ˉ
)
2
=
1
−
∑
i
=
1
n
(
Y
i
−
Y
^
)
2
∑
i
=
1
n
(
Y
i
−
Y
ˉ
)
2
R^2=\frac{ESS}{TSS}=\frac{\sum_{i=1}^n{\left( \hat{Y}_i-\bar{Y} \right) ^2}}{\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2}}=1-\frac{\sum_{i=1}^n{\left( Y_i-\hat{Y} \right) ^2}}{\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2}}
R2=TSSESS=∑i=1n(Yi−Yˉ)2∑i=1n(Y^i−Yˉ)2=1−∑i=1n(Yi−Yˉ)2∑i=1n(Yi−Y^)2
检验模型的拟合优度,其中
R
2
R^2
R2称为可决系数,反映回归直线的拟合程度,取值范围在[0,1]之间。
R
2
R^2
R2越趋近于1,说明回归方程拟合程度越好;越靠近0,说明回归方程拟合程度越差。
二、变量的显著性检验
变量的显著性检验是对模型中解释变量与被解释变量之间的线性关系是否显著成立作出推断,或者说检验解释变量是否对被解释变量有显著的线性影响。
(1) 回归系数的显著性检验(t检验)
提出假设
H
0
:
β
1
=
0
↔
H
1
:
β
1
≠
0
H_0\text{:}\beta _1=0\leftrightarrow H_1\text{:}\beta _1\ne 0
H0:β1=0↔H1:β1=0
计算检验统计量:
t
=
β
^
1
S
β
^
1
∼
t
(
n
−
2
)
t=\frac{\hat{\beta}_1}{S_{\hat{\beta}_1}}\sim t\left( n-2 \right)
t=Sβ^1β^1∼t(n−2)
确定显著性水平α,得到一个临界值
t
α
2
(
n
−
2
)
t_{\frac{\alpha}{2}}\left( n-2 \right)
t2α(n−2),并进行决策。
若 ∣ t ∣ > t α 2 ( n − 2 ) \left| t \right|>t_{\frac{\alpha}{2}}\left( n-2 \right) ∣t∣>t2α(n−2),则在α的显著性水平下拒绝原假设 H 0 H_0 H0,即变量X是显著的,通过变量的显著性检验;若 ∣ t ∣ < t α 2 ( n − 2 ) \left| t \right|<t_{\frac{\alpha}{2}}\left( n-2 \right) ∣t∣<t2α(n−2),则在显著性水平α下拒绝原假设 H 0 H_0 H0,表明变量是不显著的,未通过变量的显著性检验。
(2) 回归方程的显著性检验(F检验)
提出假设:
H
0
:线性关系不显著
H_0\text{:线性关系不显著}
H0:线性关系不显著
计算检验统计量F:
F
=
E
S
S
/
1
R
S
S
/
(
n
−
2
)
=
∑
i
=
1
n
(
Y
^
i
−
Y
ˉ
)
2
/
1
∑
i
=
1
n
(
Y
i
−
Y
^
i
)
2
/
(
n
−
2
)
F
(
1
,
n
−
2
)
F=\frac{ESS/1}{RSS/\left( n-2 \right)}=\frac{\sum_{i=1}^n{\left( \hat{Y}_i-\bar{Y} \right)}^2/1}{\sum_{i=1}^n{\left( Y_i-\hat{Y}_i \right) ^2/\left( n-2 \right)}}~F\left( 1,n-2 \right)
F=RSS/(n−2)ESS/1=∑i=1n(Yi−Y^i)2/(n−2)∑i=1n(Y^i−Yˉ)2/1 F(1,n−2)
确定显著性水平α,并根据分子自由度1和分母自由度n-2找出临界值 F α ( 1 , n − 2 ) F_{\alpha}\left( 1,n-2 \right) Fα(1,n−2)作出决策:若 F > F α ( 1 , n − 2 ) F>F_{\alpha}\left( 1,n-2 \right) F>Fα(1,n−2)拒绝 H 0 H_0 H0;若 F < F α ( 1 , n − 2 ) F<F_α (1,n-2) F<Fα(1,n−2),不拒绝 H 0 H_0 H0;
1.2 多元线性回归模型
在实际应用中,由于经济现象的复杂性,一个被解释变量往往受多个解释变量的影响,多元回归模型就是在方程中有两个或两个以上自变量的线性回归模型。因此多元线性回归模型也称为复杂线性回归模型,它是一元线性回归模型的推广,研究的是一组自变量如何直接影响一个因变量。
多元线性回归模型的基本形式如下:
Y
=
β
0
+
β
1
X
1
+
⋯
+
β
k
X
k
+
e
Y=\beta _0+\beta _1X_1+\cdots +\beta _kX_k+e
Y=β0+β1X1+⋯+βkXk+e
其中Y为因变量或被解释变量;
X
i
X_i
Xi为自变量或解释变量;
β
0
,
β
1
,
⋯
,
β
k
\beta _0,\beta _1,\cdots ,\beta _k
β0,β1,⋯,βk称为待估计的未知参数;e为随机误差。
假定有n组观测值
{
X
i
1
,
X
i
2
,
⋯
,
X
i
,
k
,
Y
i
:
(
i
=
1
,
⋯
,
n
)
}
\{X_{i1},X_{i2},\cdots ,X_{i,\text{k}},Y_i:\left( i=1,\cdots ,n \right) \}
{Xi1,Xi2,⋯,Xi,k,Yi:(i=1,⋯,n)},其方程形式满足:
Y
i
=
β
0
+
β
1
X
i
1
+
β
2
X
i
2
+
⋯
+
β
k
X
i
k
+
e
i
,
(
i
=
1
,
2
,
⋯
,
n
)
Y_i=\beta _0+\beta _1X_{i1}+\beta _2X_{i2}+\cdots +\beta _kX_{ik}+e_i,\left( i=1,2,\cdots ,n \right)
Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ei,(i=1,2,⋯,n)
即:
{
Y
1
=
β
0
+
β
1
X
11
+
β
2
X
12
+
⋯
+
β
k
X
1
k
+
e
1
Y
2
=
β
0
+
β
1
X
21
+
β
2
X
22
+
⋯
+
β
k
X
2
k
+
e
2
⋯
Y
n
=
β
0
+
β
1
X
n
1
+
β
2
X
n
2
+
⋯
+
β
k
X
n
k
+
e
n
\left\{ \begin{array}{l} Y_1=\beta _0+\beta _1X_{11}+\beta _2X_{12}+\cdots +\beta _kX_{1k}+e_1\\ \\ Y_2=\beta _0+\beta _1X_{21}+\beta _2X_{22}+\cdots +\beta _kX_{2k}+e_2\\ \cdots\\ \\ Y_n=\beta _0+\beta _1X_{n1}+\beta _2X_{n2}+\cdots +\beta _kX_{nk}+e_n\\ \end{array} \right.
⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧Y1=β0+β1X11+β2X12+⋯+βkX1k+e1Y2=β0+β1X21+β2X22+⋯+βkX2k+e2⋯Yn=β0+β1Xn1+β2Xn2+⋯+βkXnk+en
其矩阵形式为:
(
Y
1
Y
2
⋮
Y
n
)
=
(
1
X
11
⋯
X
1
k
1
X
21
⋯
X
2
k
⋮
⋮
⋮
1
X
n
1
⋯
X
n
k
)
(
β
0
β
1
⋮
β
k
)
+
(
e
1
e
2
⋮
e
n
)
\left( \begin{array}{c} Y_1\\ Y_2\\ \vdots\\ Y_n\\ \end{array} \right) =\left( \begin{matrix} 1& X_{11}& \cdots& X_{1k}\\ 1& X_{21}& \cdots& X_{2k}\\ \vdots& \vdots& & \vdots\\ 1& X_{n1}& \cdots& X_{nk}\\ \end{matrix} \right) \left( \begin{array}{c} \beta _0\\ \beta _1\\ \vdots\\ \beta _k\\ \end{array} \right) +\left( \begin{array}{c} e_1\\ e_2\\ \vdots\\ e_n\\ \end{array} \right)
⎝⎜⎜⎜⎛Y1Y2⋮Yn⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛11⋮1X11X21⋮Xn1⋯⋯⋯X1kX2k⋮Xnk⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛β0β1⋮βk⎠⎟⎟⎟⎞+⎝⎜⎜⎜⎛e1e2⋮en⎠⎟⎟⎟⎞
等价地 Y=Xβ+e
这里
Y
(
n
×
1
)
Y_{\left( n×1 \right)}
Y(n×1)为被解释变量的观测值向量;
X
(
n
×
(
k
+
1
)
)
X_{\left( n×\left( k+1 \right) \right)}
X(n×(k+1))为解释变量的观测值矩阵,通常称为设计矩阵;
β
(
(
k
+
1
)
×
1
)
\beta _{\left( \left( k+1 \right) ×1 \right)}
β((k+1)×1)为未知参数向量,其中 称为常数项;
e
(
n
×
1
)
e_{\left( n×1 \right)}
e(n×1)为随机误差向量。
为使参数估计量具有良好的统计性质,多元线性回归模型的观测数据和残差需满足如下的假定条件。
(1) 因变量Y是服从正态分布的连续型随机变量。
(2) k个自变量在所抽取的样本中具有变异性,并且为固定变量,即非随机的或无度量的变量。
(3) k个自变量之间不存在多重共线性。
(4) k个自变量与随机误差项项相互独立,即:
C
o
v
(
e
i
,
X
j
)
=
E
(
X
j
e
i
)
=
0
,
j
=
1
,
2
,
⋯
,
k
Cov\left( e_i,X_j \right) =E\left( X_je_i \right) =0,j=1,2,\cdots ,k
Cov(ei,Xj)=E(Xjei)=0,j=1,2,⋯,k
(5) 随机误差项均值为零
E
(
e
i
)
=
0
E\left( e_i \right) =0
E(ei)=0,具有等方差
V
a
r
(
e
i
)
=
σ
2
,
i
=
1
,
⋯
,
n
Var\left( e_i \right) =\sigma ^2\text{,}i=1,\cdots ,n
Var(ei)=σ2,i=1,⋯,n
(6) 随机误差项彼此不相关,即:
C
o
v
(
e
i
,
e
j
)
=
0
,
i
≠
j
,
i
,
j
=
1
,
⋯
,
n
Cov\left( e_i,e_j \right) =0\text{,}i\ne j\text{,}i,j=1,\cdots ,n
Cov(ei,ej)=0,i=j,i,j=1,⋯,n
(7) 随机误差项满足正态分布:
e
i
∼
N
(
0
,
σ
2
)
e_i\sim N\left( 0,\sigma ^2 \right)
ei∼N(0,σ2)
因此模型可以用矩阵形式表示为最基本的线性回归模型:
Y
=
X
β
+
e
,
E
(
e
)
=
0
,
C
o
v
(
e
)
=
σ
2
I
Y=X\beta +e\text{,}E\left( e \right) =0\text{,}Cov\left( e \right) =\sigma ^2I
Y=Xβ+e,E(e)=0,Cov(e)=σ2I
由最小二乘法可知
β
^
0
,
β
^
1
,
⋯
β
^
k
\hat{\beta}_0,\hat{\beta}_1,\cdots \hat{\beta}_k
β^0,β^1,⋯β^k应使全部观测值
Y
i
Y_i
Yi与回归值
Y
^
i
\hat{Y}_i
Y^i的残差
e
i
e_i
ei的平方和最小,即使:
Q
(
β
^
0
,
β
^
1
,
⋯
β
^
k
)
=
∑
e
i
2
=
∑
(
Y
i
−
Y
^
i
)
2
=
∑
(
Y
i
−
β
^
0
−
β
^
1
X
i
1
−
⋯
−
β
^
k
X
i
k
)
2
Q\left( \hat{\beta}_0,\hat{\beta}_1,\cdots \hat{\beta}_k \right) =\sum{e_i^2} =\sum{\left( Y_i-\hat{Y}_i \right) ^2=\sum{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_{i1}-\cdots -\hat{\beta}_kX_{ik} \right) ^2}}
Q(β^0,β^1,⋯β^k)=∑ei2=∑(Yi−Y^i)2=∑(Yi−β^0−β^1Xi1−⋯−β^kXik)2
取得最小值。根据多元函数极值原理,Q分别对
β
^
0
,
β
^
1
,
⋯
β
^
k
\hat{\beta}_0,\hat{\beta}_1,\cdots \hat{\beta}_k
β^0,β^1,⋯β^k求一阶偏导,并令其为0,可得到待估参数估计值的正规方程。
∂
Q
∂
β
^
j
=
0
(
j
=
0
,
1
,
⋯
,
k
)
\frac{\partial Q}{\partial \hat{\beta}_j}=0\ \ \ \left( j=0,1,\cdots ,k \right)
∂β^j∂Q=0 (j=0,1,⋯,k)
求解的参数的最小二乘估计值为
β
^
=
(
X
′
X
)
−
1
X
′
Y
\hat{\beta}=\left( X'X \right) ^{-1}X'Y
β^=(X′X)−1X′Y
多元线性回归模型的统计检验
一、拟合优度检验
在多元线性回归模型中,也可以用可决系数
R
2
R^2
R2来衡量样本回归线对样本观测值的拟合优度。根据多元线性和回归模型可以将总离差平方和TSS分解为回归平方和SSE以及残差平方和SSR两个部分,即
∑
(
Y
i
−
Y
ˉ
)
2
=
∑
(
Y
^
i
−
Y
ˉ
)
2
+
∑
(
Y
i
−
Y
^
i
)
2
\sum{\left( Y_i-\bar{Y} \right) ^2}=\sum{\left( \hat{Y}_i-\bar{Y} \right)}^2+\sum{\left( Y_i-\hat{Y}_i \right) ^2}
∑(Yi−Yˉ)2=∑(Y^i−Yˉ)2+∑(Yi−Y^i)2
因此在多元线性回归中,定义可决系数为:
R
2
=
S
S
R
S
S
T
=
1
−
S
S
E
S
S
T
R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}
R2=SSTSSR=1−SSTSSE
R
2
R^2
R2 作为检验回归方程与样本值拟合优度的指标,
R
2
(
0
≤
R
2
≤
1
)
R^2\left( 0\le R^2\le 1 \right)
R2(0≤R2≤1)越大,表示回归方程与样本值拟合的越好;反之,回归方程与样本值拟合的较差。
在现实应用过程中,如果在模型中增加一个解释变量,
R
2
R^2
R2往往增大,而由增加解释变量个数引起的
R
2
R^2
R2的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度,R^2就不是一个合适的指标,必须加以调整。将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。记为调整的可决系数,则有
R
ˉ
2
=
1
−
S
S
R
/
(
n
−
p
−
1
)
S
S
T
/
(
n
−
1
)
\bar{R}^2=1-\frac{SSR/\left( n-p-1 \right)}{SST/\left( n-1 \right)}
Rˉ2=1−SST/(n−1)SSR/(n−p−1)
二、 方程显著性的F检验
回归方程总体线性的显著性检验是对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。即检验模型
Y
i
=
β
0
+
β
1
X
i
1
+
⋯
+
β
k
X
i
k
+
e
i
Y_i=\beta _0+\beta _1X_{i1}+\cdots +\beta _kX_{ik}+e_i
Yi=β0+β1Xi1+⋯+βkXik+ei
中参数
β
0
,
β
1
,
⋯
,
β
k
\beta _0,\beta _1,\cdots ,\beta _k
β0,β1,⋯,βk是否显著不为零。因此提出假设问题
H
0
:
β
1
=
0
,
β
2
=
0
,
⋯
,
β
k
=
0
−
H
1
:
β
j
(
j
=
1
,
2
,
⋯
,
k
)
不全为零
H_0\text{:}\beta _1=0,\beta _2=0,\cdots ,\beta _k=0- H_1\text{:}\beta _j\left( j=1,2,\cdots ,k \right) \text{不全为零}
H0:β1=0,β2=0,⋯,βk=0−H1:βj(j=1,2,⋯,k)不全为零
在
H
0
H_0
H0成立的条件下,计算统计量F
F
=
S
S
R
/
k
S
S
E
/
(
n
−
k
−
1
)
F
(
k
,
n
−
k
−
1
)
F=\frac{SSR/k}{SSE/\left( n-k-1 \right)}~F\left( k,n-k-1 \right)
F=SSE/(n−k−1)SSR/k F(k,n−k−1)
对于假设
H
0
H_0
H0,根据样本观测值计算统计量F,给定显著性水平α,得出临界值
F
α
(
k
,
n
−
k
−
1
)
F_{\alpha}\left( k,n-k-1 \right)
Fα(k,n−k−1)。当
F
≥
F
α
(
k
,
n
−
k
−
1
)
F\ge F_{\alpha}\left( k,n-k-1 \right)
F≥Fα(k,n−k−1)时,拒绝
H
0
H_0
H0,则认为回归方程显著成立;当
F
<
F
α
(
k
,
n
−
k
−
1
)
F<F_{\alpha}\left( k,n-k-1 \right)
F<Fα(k,n−k−1)时,接受
H
0
H_0
H0,则认为回归方程无显著意义。
三、 参数显著性检验(t检验)
在多元线性回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,因此就需要对每个自变量进行显著性检验。显然,如果某个自变量X对Y的作用不显著,那么它在回归模型中,其前面的系数可取值为零。
为此提出假设
H
0
:
β
j
=
0
↔
H
1
:
β
j
≠
0
H_0\text{:}\beta _j=0\leftrightarrow H_1\text{:}\beta _j\ne 0
H0:βj=0↔H1:βj=0
计算检验统计量t
t
=
β
^
j
c
j
j
σ
^
t=\frac{\hat{\beta}_j}{\sqrt{c_{jj}}\hat{\sigma}}
t=cjjσ^β^j
其中,
c
j
j
=
(
X
′
X
)
−
1
c_{jj}=\left( X'X \right) ^{-1}
cjj=(X′X)−1,
σ
^
=
S
S
E
/
(
n
−
k
−
1
)
\hat{\sigma}=\sqrt{SSE/\left( n-k-1 \right)}
σ^=SSE/(n−k−1)是回归标准差。
当原假设成立时,上述t统计量服从自由度为n-k-1的t分布。给定显著性水平α,可以得出临界值 t α 2 ( n − k − 1 ) t_{\frac{\alpha}{2}}\left( n-k-1 \right) t2α(n−k−1)。当 ∣ t ∣ > t α 2 ( n − k − 1 ) \left| t \right|>t_{\frac{\alpha}{2}}\left( n-k-1 \right) ∣t∣>t2α(n−k−1)时,拒绝原假设 ,认为 β j β_j βj显著不为零,自变量 X j X_j Xj对因变量Y的线性效果显著;否则认为 β j β_j βj显著为零,自变量 X j X_j Xj对因变量Y的线性效果不显著。
2. 方差分析模型
方差分析模型(variance analysis model)又称实验设计模型,是一种特殊的线性模型。
在线性回归模型中,所涉及的自变量一般来说都可以是连续变量,研究的基本目的是寻求因变量与自变量之间客观存在的依赖关系。而方差分析模型的自变量为示性变量,这种变量往往表示某种效应大小的存在与否,只能取0或1。因此在实际问题中,方差分析模型是比较两个或多个因素效应大小的一种有力工具,广泛应用于工业、农业、经济、生物、医学等领域。
2.1 方差分析模型概述
在实际应用中,常常需要判断几组观察到的数据或者处理的结果是否存在显著差异。
而方差分析模型就是用于检验两组或者两组以上样本的均值是否具备显著性差异的一种有效的数理统计方法。
一、分析模型中涉及的一些基本概念:
(1)因变量(Dependent):试验结果,通常用y表示,为一个随机变量;
(2)因素(Factor):在试验中影响因变量的自变量,也称为因子,常用大写字母A、B、C表示;
(3)水平:为了研究自变量对因变量的影响,需要考虑自变量两个或多个不同的取值情况,这些取值称为因子的水平,例如因子A的r个不同水平表示为
A
1
,
A
2
,
⋯
,
A
r
A_1,A_2,\cdots ,A_r
A1,A2,⋯,Ar。
(4)试验条件(也称处理):在单因子试验中,每个水平就是一个处理,在多因子试验中,每个因子取一个特定的水平,这些特定水平的组合称其为一个试验条件,又称为一个处理。
二、方差分析模型有三个基本的假定:
(1)正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;
(2)独立性:每个样本数据是来自因子各水平独立的样本
(3)方差齐性:各个总体的方差
σ
2
\sigma ^2
σ2必须相同。
在三个基本假定中,方差分析模型对于独立性的要求比较严格,若该假设不满足,则结果往往会受到较大的影响。
2.2 单因素方差分析
单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响,对于单因素方差分析问题,假定因素A有r个水平(总体),记为
A
1
,
A
2
,
⋯
,
A
r
A_1,A_2,\cdots ,A_r
A1,A2,⋯,Ar,设
y
i
y_i
yi为第i个水平下的试验结果,
y
i
−
N
(
μ
i
,
σ
2
)
y_i-N(μ_i,σ^2)
yi−N(μi,σ2),在
A
i
A_i
Ai水平下做 t 次试验,获得 t 个数据,则
y
i
j
y_{ij}
yij表示第 i 个水平(总体)的第 j 个观测值 。
在假定都成立的前提下,要比较因素A的r个水平的差异,在形式上可转化为比较r个水平(总体)的均值是否相等。因此提出假设检验:
H
0
:
μ
1
=
μ
2
=
⋯
=
μ
r
⟷
H
1
:
μ
1
,
μ
2
,
⋯
,
μ
r
不全相等
H_0\text{:}\mu _1=\mu _2=\cdots =\mu _r\longleftrightarrow H_1\text{:}\mu _1,\mu _2,\cdots ,\mu _r\text{不全相等}
H0:μ1=μ2=⋯=μr⟷H1:μ1,μ2,⋯,μr不全相等
由于
y
i
j
y_{ij}
yij的取值既受不同水平
A
i
A_i
Ai的影响,又受
A
i
A_i
Ai固定下随机因素的影响,所以单因素方差分析模型为:
于是单因素方差模型可写成:
{
y
i
j
=
μ
+
α
i
+
e
i
j
e
i
j
N
(
0
,
σ
2
)
∑
i
=
1
r
α
i
=
0
i
=
1
,
2
,
⋯
,
r
;
j
=
1
,
2
,
⋯
,
t
\left\{ \begin{array}{l} y_{ij}=\mu +\alpha _i+e_{ij}\\ \\ e_{ij}~N\left( 0,\sigma ^2 \right)\\ \\ \sum_{i=1}^r{\alpha _i}=0\\ \end{array} \right. \ \ \ \ i=1,2,\cdots ,r\ ;\ j=1,2,\cdots ,t\
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧yij=μ+αi+eijeij N(0,σ2)∑i=1rαi=0 i=1,2,⋯,r ; j=1,2,⋯,t
原假设等价于
H
0
:
α
1
=
α
2
=
⋯
=
α
r
=
0
H_0\text{:}\alpha _1=\alpha _2=\cdots =\alpha _r=0
H0:α1=α2=⋯=αr=0
如果
H
0
H_0
H0被拒绝,则说明因素A的各水平的效应之间有显著的差异。
由观测值
y
i
j
y_{ij}
yij的波动可由因素的A的不同水平以及试验的随机误差e引起,因此在单因素方差分析中,总离差平方和SST可分解为组间平方和SSA以及组内平方和SSE两部分,具体记为:
(1) 总离差平方和
S
S
T
=
∑
i
=
1
r
∑
j
=
1
t
(
y
i
j
−
y
ˉ
)
2
SS_T=\sum_{i=1}^r{\sum_{j=1}^t{\left( y_{ij}-\bar{y} \right) ^2}}
SST=∑i=1r∑j=1t(yij−yˉ)2, 反映全部试验数据之间的差异
其自由度为
f
T
=
n
−
1
(
n
=
r
×
t
)
f_T=n-1(n=r×t)
fT=n−1(n=r×t)
(2) 组间平方和
S
S
A
=
∑
i
=
1
r
t
(
y
ˉ
i
−
y
ˉ
)
2
SS_A=\sum_{i=1}^r{t\left( \bar{y}_i-\bar{y} \right) ^2}
SSA=∑i=1rt(yˉi−yˉ)2, 为r个水平均值差异大小的度量
其自由度为
f
T
=
r
−
1
f_T=r-1
fT=r−1
(3) 组内平方和 S S E = ∑ i = 1 r ∑ j = 1 t ( y i j − y ˉ i ) 2 SS_E=\sum_{i=1}^r{\sum_{j=1}^t{\left( y_{ij}-\bar{y}_i \right) ^2}} SSE=∑i=1r∑j=1t(yij−yˉi)2,其自由度为 f T = n − r f_T=n-r fT=n−r
(4) 三种变异的关系为
S
S
T
=
S
S
A
+
S
S
E
SS_T=SS_A+SS_E
SST=SSA+SSE
由相关的证明推理可知,当
H
0
H_0
H0成立时此构造出方差分析的统计量
F
=
S
S
A
/
(
r
−
1
)
S
S
E
/
(
n
−
r
)
F
(
r
−
1
,
n
−
r
)
F=\frac{SS_A/\left( r-1 \right)}{SS_E/\left( n-r \right)}~F\left( r-1,n-r \right)
F=SSE/(n−r)SSA/(r−1) F(r−1,n−r)
因此在给定的显著性水平α,若
F
>
F
α
(
r
−
1
,
n
−
r
)
F>F_{\alpha}\left( r-1,n-r \right)
F>Fα(r−1,n−r),则拒绝原假设,认为因素A的r个水平效应有显著性差异。相反,若
F
<
F
α
(
r
−
1
,
n
−
r
)
F<F_{\alpha}\left( r-1,n-r \right)
F<Fα(r−1,n−r),则不拒绝原假设,认为因素A的r个水平没有明显的差异。可得出方差分析表:
2.3 两因素方差分析
单因素方差分析只是考虑一个分类型自变量对数值型因变量的影响。在对实际问题的研究中,有时需要考虑几个因素对试验结果的影响。
这里考虑无交互效应的两因素方差分析,假定两因素分别为A和B,其中因素A有a个不同的水平,记为
A
1
,
A
2
,
⋯
,
A
a
A_1,A_2,\cdots ,A_a
A1,A2,⋯,Aa,因素B有b个不同的水平,记为
B
1
,
B
2
,
⋯
,
B
b
B_1,B_2,\cdots ,B_b
B1,B2,⋯,Bb。因此根据单因素方差分析模型,可以得出无交互效应的两因素方差分析为:
{
y
i
j
=
μ
+
α
i
+
β
j
+
e
i
j
i
=
1
,
2
,
⋯
,
a
;
j
=
1
,
2
,
⋯
,
b
e
i
j
N
(
0
,
σ
2
)
,
且相互独立
∑
i
=
1
a
α
i
=
0
,
∑
j
=
1
b
β
j
=
0
\left\{ \begin{array}{l} y_{ij}=\mu +\alpha _i+\beta _j+e_{ij}\ \ \ \ i=1,2,\cdots ,a\ ;\ j=1,2,\cdots ,b\\ \\ e_{ij}~N\left( 0,\sigma ^2 \right) \ \ ,\ \text{且相互独立}\\ \\ \sum_{i=1}^a{\alpha _i}=0\ \ ,\ \ \sum_{j=1}^b{\beta _j}=0\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧yij=μ+αi+βj+eij i=1,2,⋯,a ; j=1,2,⋯,beij N(0,σ2) , 且相互独立∑i=1aαi=0 , ∑j=1bβj=0
其中μ为总平均,
α
i
α_i
αi为因素A的水平
A
i
A_i
Ai的效应,
β
j
β_j
βj为因素B的水平
B
j
B_j
Bj的效应,
e
i
j
e_{ij}
eij为随机误差。
考察因素A或B各水平对指标的影响有无显著的差异,可以归结为对假设
H
1
:
α
1
=
α
2
=
⋯
=
α
a
=
0
H_1\text{:}\alpha _1=\alpha _2=\cdots =\alpha _a=0
H1:α1=α2=⋯=αa=0
或
H
2
:
β
1
=
β
2
=
⋯
=
β
b
=
0
H_2\text{:}\beta _1=\beta _2=\cdots =\beta _b=0
H2:β1=β2=⋯=βb=0
因此和单因素方差分析模型一样,可构造如下检验统计量:
- 总平方和: S S T = ∑ i = 1 a ∑ j = 1 b ( y i j − y ˉ ) 2 SS_T=\sum_{i=1}^a{\sum_{j=1}^b{\left( y_{ij}-\bar{y} \right) ^2}} SST=∑i=1a∑j=1b(yij−yˉ)2,自由度ab-1
- 因素A的平方和: S S A = b ∑ i = 1 a ( y ˉ i ⋅ − y ˉ ) 2 SS_A=b\sum_{i=1}^a{\left( \bar{y}_{i\cdot}-\bar{y} \right) ^2} SSA=b∑i=1a(yˉi⋅−yˉ)2,自由度为a-1
- 因素B的平方和: S S B = a ∑ j = 1 b ( y ˉ ⋅ j − y ˉ ) 2 SS_B=a\sum_{j=1}^b{\left( \bar{y}_{\cdot j}-\bar{y} \right) ^2} SSB=a∑j=1b(yˉ⋅j−yˉ)2,自由度b-1
误差平方和
因此总平方和的分解式:
S
S
T
=
S
S
A
+
S
S
B
+
S
S
E
SS_T=SS_A+SS_B+SS_E
SST=SSA+SSB+SSE
由相关证明可得,当
H
1
H_1
H1成立时,
F
A
=
S
S
A
/
(
a
−
1
)
S
S
E
/
(
a
−
1
)
(
b
−
1
)
F
α
(
a
−
1
,
(
a
−
1
)
(
b
−
1
)
)
F_A=\frac{SS_A/\left( a-1 \right)}{SS_E/\left( a-1 \right) \left( b-1 \right)}~F_{\alpha}\left( a-1,\left( a-1 \right) \left( b-1 \right) \right)
FA=SSE/(a−1)(b−1)SSA/(a−1) Fα(a−1,(a−1)(b−1))
对于给定的显著性水平α,当
F
A
>
F
α
(
a
−
1
,
(
a
−
1
)
(
b
−
1
)
)
F_A>F_{\alpha}\left( a-1,\left( a-1 \right) \left( b-1 \right) \right)
FA>Fα(a−1,(a−1)(b−1))时,拒绝原假设,认为因素A的a个水平的效应有显著性差异。
同理,当
H
2
H_2
H2成立时
F
B
=
S
S
B
/
(
b
−
1
)
S
S
E
/
(
a
−
1
)
(
b
−
1
)
F
α
(
b
−
1
,
(
a
−
1
)
(
b
−
1
)
)
F_B=\frac{SS_B/\left( b-1 \right)}{SS_E/\left( a-1 \right) \left( b-1 \right)}~F_{\alpha}\left( b-1,\left( a-1 \right) \left( b-1 \right) \right)
FB=SSE/(a−1)(b−1)SSB/(b−1) Fα(b−1,(a−1)(b−1))
同样的方法检验
H
2
H_2
H2。因此对于无交互效应的两因素方差分析得出方差分析表:
3. 协方差分析模型
协方差模型是一种特殊的线性模型,它实际上是线性回归模型和方差模型的混合,模型中的自变量既有属性因子又有数量因子,设计矩阵由两部分组成,一部分元素只能取0或1,而另一部分的元素可取连续值,可以看作由方差分析模型和线性回归模型的设计矩阵组拼而成。
协方差分析模型虽然是线性回归模型和方差分析模型的一种“混合”,但是对这两部分并不同等看待,回归部分只是因为某些量不能回归分析部分只是因为某些量不能完全人为控制而不得已引入的。因此协方差模型最主要的还是方差分析部分,因而这种模型的统计分析—协方差分析,基本上具有方差分析的特色,即有关效应存在性的检验占有突出地位,与方差分析比较起来,在协方差分析中并没有引进任何新的概念,实际上它只是一种计算方法,旨在利用一般方差分析的结果很简便地作协方差分析模型的统计分析。
3.1 模型结构
一般的协方差分析模型为
{
Y
=
X
β
+
Z
γ
+
e
H
β
=
0
e
N
(
0
,
σ
2
)
\left\{ \begin{array}{l} Y=X\beta +Z\gamma +e\\ \\ H\beta =0\\ \\ e~N\left( 0,\sigma ^2 \right)\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧Y=Xβ+Zγ+eHβ=0e N(0,σ2)
其中
Y
=
(
y
1
y
2
⋮
y
n
)
X
=
(
x
11
x
12
⋯
x
1
p
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
⋮
x
n
1
x
n
2
⋯
x
n
p
)
Z
=
(
z
11
z
12
⋯
z
1
k
z
21
z
22
⋯
z
2
k
⋮
⋮
⋮
⋮
z
n
1
z
n
2
⋯
z
n
k
)
Y=\left( \begin{array}{c} y_1\\ y_2\\ \vdots\\ y_n\\ \end{array} \right) \ \ \ X=\left( \begin{matrix} x_{11}& x_{12}& \cdots& x_{1p}\\ x_{21}& x_{22}& \cdots& x_{2p}\\ \vdots& \vdots& \vdots& \vdots\\ x_{n1}& x_{n2}& \cdots& x_{np}\\ \end{matrix} \right) \ \ Z=\left( \begin{matrix} z_{11}& z_{12}& \cdots& z_{1k}\\ z_{21}& z_{22}& \cdots& z_{2k}\\ \vdots& \vdots& \vdots& \vdots\\ z_{n1}& z_{n2}& \cdots& z_{nk}\\ \end{matrix} \right)
Y=⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞ X=⎝⎜⎜⎜⎛x11x21⋮xn1x12x22⋮xn2⋯⋯⋮⋯x1px2p⋮xnp⎠⎟⎟⎟⎞ Z=⎝⎜⎜⎜⎛z11z21⋮zn1z12z22⋮zn2⋯⋯⋮⋯z1kz2k⋮znk⎠⎟⎟⎟⎞
β
=
(
β
1
β
2
⋮
β
p
)
γ
=
(
γ
1
γ
2
⋮
γ
k
)
e
=
(
e
1
e
2
⋮
e
n
)
\beta =\left( \begin{array}{c} \beta _1\\ \beta _2\\ \vdots\\ \beta _p\\ \end{array} \right) \ \ \gamma =\left( \begin{array}{c} \gamma _1\\ \gamma _2\\ \vdots\\ \gamma _k\\ \end{array} \right) \ \ e=\left( \begin{array}{c} e_1\\ e_2\\ \vdots\\ e_n\\ \end{array} \right)
β=⎝⎜⎜⎜⎛β1β2⋮βp⎠⎟⎟⎟⎞ γ=⎝⎜⎜⎜⎛γ1γ2⋮γk⎠⎟⎟⎟⎞ e=⎝⎜⎜⎜⎛e1e2⋮en⎠⎟⎟⎟⎞
其中
Y
n
×
1
Y_{n\times 1}
Yn×1为要考察的某项指标;X为因素A的设计矩阵,其元素
x
i
j
x_{ij}
xij皆为0或1,并且Xβ代表模型的方差部分;Z为协变量矩阵,其元素z_ij可取任何实数值,并且Zγ代表模型的回归部分; β为因素效应向量;γ为待估计的回归系数。
3.2 参数估计
协方差分析模型中参数的最小二乘估计可以由以下正则方程得到,正则方程为:
(
X
Z
)
T
(
X
Z
)
(
β
γ
)
=
(
X
Z
)
T
Y
\left( X\ \ Z \right) ^T\left( X\ \ Z \right) \left( \begin{array}{c} \beta\\ \gamma\\ \end{array} \right) =\left( X\ \ Z \right) ^TY
(X Z)T(X Z)(βγ)=(X Z)TY
加上约束条件,可写成
{
X
T
X
β
+
X
T
Z
γ
=
X
T
Y
Z
T
X
β
+
Z
T
Z
γ
=
Z
T
Y
H
β
=
0
\left\{ \begin{array}{l} X^TX\beta +X^TZ\gamma =X^TY\\ \\ Z^TX\beta +Z^TZ\gamma =Z^TY\\ \\ H\beta =0\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧XTXβ+XTZγ=XTYZTXβ+ZTZγ=ZTYHβ=0
令 γ=0 时,协方差分析模型转化为方差分析模型
Y
=
X
β
+
e
,
e
∼
N
(
0
,
σ
2
I
n
)
Y=X\beta +e\ ,\ e\sim N\left( 0,\sigma ^2I_n \right)
Y=Xβ+e , e∼N(0,σ2In),对应的正规方程组
{
X
T
X
β
=
X
T
Y
H
β
=
0
\left\{ \begin{array}{l} X^TX\beta =X^TY\\ \\ H\beta =0\\ \end{array} \right.
⎩⎨⎧XTXβ=XTYHβ=0
的解是Y的线性函数,记为
θ
^
0
=
A
Y
\hat{\theta}_0=AY
θ^0=AY,因此根据上述等式关系,解得
β
^
=
A
(
Y
−
Z
γ
)
=
A
Y
−
A
(
Z
1
γ
1
+
Z
2
γ
2
+
⋯
+
Z
k
γ
k
)
\hat{\beta}=A\left( Y-Z\gamma \right) =AY-A\left( Z_1\gamma _1+Z_2\gamma _2+\cdots +Z_k\gamma _k \right)
β^=A(Y−Zγ)=AY−A(Z1γ1+Z2γ2+⋯+Zkγk)
=
A
Y
−
A
Z
1
γ
1
−
A
Z
2
γ
2
−
⋯
−
A
Z
k
γ
k
=AY-AZ_1\gamma _1-AZ_2\gamma _2-\cdots -AZ_k\gamma _k
=AY−AZ1γ1−AZ2γ2−⋯−AZkγk
这里
Z
j
Z_j
Zj是Z的第j列,
γ
j
γ_j
γj是γ的第j个分量。另外,可以把
A
Z
j
AZ_j
AZj看成是指标为
Z
j
Z_j
Zj的对应的方差分析模型中各种效应的估计,即可记
{
Z
j
=
X
β
+
e
H
β
=
0
e
N
n
(
0
,
σ
2
I
n
)
\left\{ \begin{array}{l} Z_j=X\beta +e\\ \\ H\beta =0\\ \\ e~N_n\left( 0,\sigma ^2I_n \right)\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧Zj=Xβ+eHβ=0e Nn(0,σ2In)
中β的估计为
θ
^
j
=
A
Z
j
,
j
=
1
,
2
,
⋯
,
k
\hat{\theta}_j=AZ_j\ ,\ j=1,2,\cdots ,k
θ^j=AZj , j=1,2,⋯,k
θ
^
j
\hat{\theta}_j
θ^j 满足
{
X
T
X
θ
j
=
X
T
Z
j
H
θ
j
=
0
\left\{ \begin{array}{l} X^TX\theta _j=X^TZ_j\\ \\ H\theta _j=0\\ \end{array} \right.
⎩⎨⎧XTXθj=XTZjHθj=0
只要求得γ的估计后,便可得
β
^
=
θ
^
0
−
θ
^
1
γ
^
1
−
⋯
−
θ
^
k
γ
^
k
\hat{\beta}=\hat{\theta}_0-\hat{\theta}_1\hat{\gamma}_1-\cdots -\hat{\theta}_k\hat{\gamma}_k
β^=θ^0−θ^1γ^1−⋯−θ^kγ^k
为求γ的估计需要利用
Z
i
T
X
β
+
Z
i
T
(
Z
1
γ
1
+
⋯
+
Z
k
γ
k
)
=
Z
i
T
Y
,
i
=
1
,
2
,
⋯
,
k
Z_i^TX\beta +Z_i^T\left( Z_1\gamma _1+\cdots +Z_k\gamma _k \right) =Z_i^TY\ \ \ ,\ i=1,2,\cdots ,k
ZiTXβ+ZiT(Z1γ1+⋯+Zkγk)=ZiTY , i=1,2,⋯,k
3.3 假设检验
欲检验:
H
0
:
M
(
β
γ
)
=
0
H_0\text{:}M\left( \begin{array}{c} \beta\\ \gamma\\ \end{array} \right) =0
H0:M(βγ)=0
其检验统计量为
F
=
(
R
1
2
−
R
0
2
)
/
(
f
1
−
f
0
)
R
0
2
/
F
0
F=\frac{\left( R_1^2-R_0^2 \right) /\left( f_1-f_0 \right)}{R_0^2/F_0}
F=R02/F0(R12−R02)/(f1−f0)
其中
{
R
1
2
=
Y
T
[
Y
−
X
(
M
)
θ
^
0
(
M
)
]
−
Z
1
T
(
M
)
[
Y
−
X
(
M
)
θ
^
0
(
M
)
∣
γ
^
1
(
M
)
]
−
Z
k
T
(
M
)
[
Y
−
X
(
M
)
θ
^
0
(
M
)
∣
γ
^
k
(
M
)
]
R
0
2
=
Y
T
[
Y
−
X
θ
^
0
]
−
Z
1
T
[
Y
−
X
θ
^
0
]
γ
^
1
−
⋯
−
Z
k
T
[
Y
−
X
θ
^
k
]
γ
^
k
f
0
=
n
−
R
(
X
)
−
R
(
Z
)
f
1
=
n
−
R
(
X
(
M
)
)
−
R
(
Z
(
M
)
)
\left\{ \begin{array}{l} R_1^2=Y^T\left[ Y-X\left( M \right) \hat{\theta}_0\left( M \right) \right] -Z_1^T\left( M \right) \left[ Y-X\left( M \right) \hat{\theta}_0\left( M \right) |\hat{\gamma}_1\left( M \right) \right]\\ \ \ \ \ \ -Z_k^T\left( M \right) \left[ Y-X\left( M \right) \hat{\theta}_0\left( M \right) |\hat{\gamma}_k\left( M \right) \right]\\ \\ R_0^2=Y^T\left[ Y-X\hat{\theta}_0 \right] -Z_1^T\left[ Y-X\hat{\theta}_0 \right] \hat{\gamma}_1-\cdots -Z_k^T\left[ Y-X\hat{\theta}_k \right] \hat{\gamma}_k\\ \\ f_0=n-R\left( X \right) -R\left( Z \right)\\ \\ f_1=n-R\left( X\left( M \right) \right) -R\left( Z\left( M \right) \right)\\ \end{array} \right.
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧R12=YT[Y−X(M)θ^0(M)]−Z1T(M)[Y−X(M)θ^0(M)∣γ^1(M)] −ZkT(M)[Y−X(M)θ^0(M)∣γ^k(M)]R02=YT[Y−Xθ^0]−Z1T[Y−Xθ^0]γ^1−⋯−ZkT[Y−Xθ^k]γ^kf0=n−R(X)−R(Z)f1=n−R(X(M))−R(Z(M))
在原假设为真时,
F
∼
F
(
f
1
−
f
0
,
f
0
)
F\sim F\left( f_1-f_0,f_0 \right)
F∼F(f1−f0,f0),在给定的显著性水平下,当
F
>
F
α
(
f
1
−
f
0
,
f
0
)
F>F_{\alpha}\left( f_1-f_0,f_0 \right)
F>Fα(f1−f0,f0)时,拒绝原假设。
4. 混合效应模型
混合效应模型也称为方差分量模型,混合效应模型的一般形式为:
y
=
X
β
+
U
ξ
+
e
y=X\beta +U\xi +e
y=Xβ+Uξ+e
其中y为n×1观测向量,X为n×p已知设计矩阵,β为p×1非随机的参数向量,称为固定效应,U为n×
q
i
q_i
qi随机效应变量构造的设计矩阵,
ξ
i
\xi _i
ξi为
q
i
q_i
qi×1随机向量,称为随机效应,一般有如下假设
E
(
ξ
i
)
=
0
,
C
o
v
(
ξ
i
)
=
σ
i
2
I
q
i
,
C
o
v
(
ξ
i
,
ξ
i
)
=
0
,
i
≠
j
E\left( \xi _i \right) =0\text{,}Cov\left( \xi _i \right) =\sigma _i^2I_{q_i}\text{,}Cov\left( \xi _i,\xi _i \right) =0,i\ne j
E(ξi)=0,Cov(ξi)=σi2Iqi,Cov(ξi,ξi)=0,i=j
于是
E
(
y
)
=
X
β
,
C
o
v
(
y
)
=
∑
i
=
1
k
σ
i
2
U
i
U
i
T
E\left( y \right) =X\beta \text{,}Cov\left( y \right) =\sum_{i=1}^k{\sigma _i^2U_iU_i^T}
E(y)=Xβ,Cov(y)=i=1∑kσi2UiUiT
σ
i
2
σ_i^2
σi2 称为方差分量。
5. 面板数据模型
面板数据(panel data)也称平行数据或时间序列截面数据,是混合数据(pool data)中一种特殊类型的数据,它是指在时间序列上不同时间节点取相应的截面,在这些截面上同时选取样本观测值所构成的样本数据,面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值;从纵剖面上看是一个时间序列。
5.1 面板数据模型的基本形式
面板数据模型的基本形式为:
y
i
t
=
a
i
+
x
′
i
t
b
i
+
e
i
t
,
i
=
1
,
2
,
⋯
,
N
;
t
=
1
,
2
,
⋯
,
T
y_{it}=a_i+\boldsymbol{x'}_{it}\boldsymbol{b}_i+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
yit=ai+x′itbi+eit , i=1,2,⋯,N ; t=1,2,⋯,T
其中
y
i
t
y_{it}
yit为时间t横截面上第i个被解释变量的数值;
x
i
t
x_{it}
xit为k×1维解释变量向量;
b
i
t
b_{it}
bit为对应于回归向量
x
i
t
x_{it}
xit的k×1维系数向量;
a
i
a_i
ai为常数项或截距项,代表横截面第i个个体的影响;
e
i
t
e_{it}
eit为随机误差项,满足相互独立、零均值、同方差为
σ
2
σ^2
σ2的假设;N表示同一截面拥有个体的个数;T表示每个截面个体的观测时期总数。在成员截面上,该模型共含有N个截面成员方程,在时间截面上,该模型共含有T个时间截面的方程。
面板数据模型划分为以下3中类型:
(1)无个体影响的不变系数模型:
a
i
=
a
j
=
a
,
b
i
=
b
j
=
b
a_i=a_j=a\ ,\ b_i=b_j=b
ai=aj=a , bi=bj=b
y
i
t
=
a
+
x
′
i
t
b
+
e
i
t
,
i
=
1
,
2
,
⋯
,
N
;
t
=
1
,
2
,
⋯
,
T
y_{it}=a+\boldsymbol{x'}_{it}\boldsymbol{b}+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
yit=a+x′itb+eit , i=1,2,⋯,N ; t=1,2,⋯,T
在该模型中,假设在横截面上既无个体影响也没有结构变化,可将模型简单地视为是横截面数据的堆积的模型。这种模型与一般的回归模型无本质区别,只要随机扰动项服从经典基本假设条件,就可以用OLS法对参数进行估计,该模型也称为联合回归模型。
(2)变截距模型:
a
i
≠
a
j
,
b
i
=
b
j
=
b
a_i\ne a_j\ ,\ b_i=b_j=b
ai=aj , bi=bj=b
y
i
t
=
a
i
+
x
′
i
t
b
+
e
i
t
,
i
=
1
,
2
,
⋯
,
N
;
t
=
1
,
2
,
⋯
,
T
y_{it}=a_i+\boldsymbol{x'}_{it}\boldsymbol{b}+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
yit=ai+x′itb+eit , i=1,2,⋯,N ; t=1,2,⋯,T
在该模型中,假设在横截面上存在个体影响,不存在结构性变化,个体影响可以用截距项的差别来说明,即模型中各截面方程的截距项不同,系数向量相同,故通称为变截距模型。
(3)变系数模型:
a
i
≠
a
j
,
b
i
≠
b
j
a_i\ne a_j,\ b_i\ne b_j
ai=aj, bi=bj
y
i
t
=
a
i
+
x
′
i
t
b
i
+
e
i
t
,
i
=
1
,
2
,
⋯
,
N
;
t
=
1
,
2
,
⋯
,
T
y_{it}=a_i+\boldsymbol{x'}_{it}\boldsymbol{b}_i+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
yit=ai+x′itbi+eit , i=1,2,⋯,N ; t=1,2,⋯,T
在该模型中,假设在横截面上既存在个体影响,又存在结构变化,即在允许个体影响由变化的截距项来说明,同时还允许由系数向量依个体成员的不同而变化,用以说明个体成员之间的结构变化,通称为变系数模型或无约束模型。
根据模型中个体影响的不同形式,上述三个模型可以又分成固定效应模型和随机效应模型。如果模型中的个体影响 a i 为 a_i为 ai为确定性变量,即模型中省略因素对个体差异的影响是固定不变的,则模型为固定效应模型。如果 a i a_i ai为随机变量,即模型中省略对不同个体的影响是随机的,则模型为随机效应模型。
5.2 面板数据模型检验
建立面板数据模型首先要检验被解释变量
y
i
t
y_{it}
yit的参数
a
i
a_i
ai和
b
i
b_i
bi是否对所有个体样本点和时间都是常数,即检验样本数据究竟术语上述3种情况的哪一种形式,从而避免模型设定的偏差,改进参数估计的有效性,主要检验如下两个假设:
H
1
:
b
1
=
b
2
=
⋯
=
b
N
↔
H
2
:
a
1
=
a
2
=
⋯
=
a
N
;
b
1
=
b
2
=
⋯
=
b
N
H_1\text{:}b_1=b_2=\cdots =b_N\leftrightarrow H_2\text{:}a_1=a_2=\cdots =a_N\ ;\ b_1=b_2=\cdots =b_N
H1:b1=b2=⋯=bN↔H2:a1=a2=⋯=aN ; b1=b2=⋯=bN
如果接受假设
H
2
H_2
H2,则可以认为样本数据符合无个体影响的不变系数模型。如果拒绝假设
H
2
H_2
H2,则需检验假设
H
1
H_1
H1,如果接受
H
1
H_1
H1,则认为样本数据符合变截距、不变系数模型;反之,则认为样本数据符合变系数模型。
对应假设
H
1
H_1
H1和
H
2
H_2
H2,在检验的过程中构造的检验统计量分别为:
F
1
=
(
S
2
−
S
1
)
/
[
(
N
−
1
)
k
]
S
1
/
[
N
T
−
N
(
k
+
1
)
]
F
[
(
N
−
1
)
k
,
N
(
T
−
k
−
1
)
]
F_1=\frac{\left( S_2-S_1 \right) /\left[ \left( N-1 \right) k \right]}{S_1/\left[ NT-N\left( k+1 \right) \right]}~F\left[ \left( N-1 \right) k,N\left( T-k-1 \right) \right]
F1=S1/[NT−N(k+1)](S2−S1)/[(N−1)k] F[(N−1)k,N(T−k−1)]
F
2
=
(
S
3
−
S
1
)
/
[
(
N
−
1
)
(
k
+
1
)
]
S
1
/
[
N
T
−
N
(
k
+
1
)
]
F
[
(
N
−
1
)
(
k
+
1
)
,
N
(
T
−
k
−
1
)
]
F_2=\frac{\left( S_3-S_1 \right) /\left[ \left( N-1 \right) \left( k+1 \right) \right]}{S_1/\left[ NT-N\left( k+1 \right) \right]}~F\left[ \left( N-1 \right) \left( k+1 \right) ,N\left( T-k-1 \right) \right]
F2=S1/[NT−N(k+1)](S3−S1)/[(N−1)(k+1)] F[(N−1)(k+1),N(T−k−1)]
其中, S 1 S_1 S1、 S 2 S_2 S2、 S 3 S_3 S3分别为变系数模型、变截距模型、无个体影响的不变系数模型的残差平方和;N为截面样本点的个数;T为时序期数;k为待估计参数(不含截距项)的个数。
在假设 H 2 H_2 H2成立时,若计算所得的统计量 F 2 F_2 F2的值小于给定显著性水平下的临界值,则接受假设 H 2 H_2 H2,采用无个体影响的不变系数模型,否则继续检验 H 1 H_1 H1。即当 H 1 H_1 H1成立时,若计算所得的统计量 F 1 F_1 F1的值小于给定显著性水平下的临界值,则接受假设 H 1 H_1 H1,采用变截距模型,否则采用变系数模型。
至于采用固定效应模型还是随机效应模型,可以根据所研究问题的特点来决定。如果仅对样本本身的效应进行分析,则使用固定效应模型。如果是用样本推断总体效应,则使用随机效应模型。另外,也可以使用Hausman检验进行识别。