简介
什么是Longitudinal Data 或 Panel Data呢 ?
由第二章的内容我们知道,一般的回归模型针对的是截面数据,而纯粹的时间序列数据也是有专门的模型进行拟合。无论是时间序列还是截面数据,都是一维的,要么是变量按照时间顺序得到的序列,要么是变量在同一时间上的数据。
Panel data(面板数据) 原指一组固定的调查对象的多次观测值,目前已经变成专业术语,泛指上述两种混合类型的数据。Panel data又叫 Longitudinal Data。
面板数据分两种特征:
面板数据模型,主要针对研究的的是第二种情况。
why面板数据模型?
从最根本的目的出发,面板数据模型可以比截面数据模型获得更多的动态信息,解释各变量的动态变化。
正文
一,模型的分类
面板数据模型通常有下面几种;
- 混合模型
- 固定效应模型
(1) 个体固定效应模型
(2) 时点固定效应模型
(3) 个体和时点双固定效应模型 - 随机效应模型
- 动态模型
1,混合效应模型
类型 | 公式 | 特点 |
---|---|---|
混合模型 | y i t = α + X i t ′ β + ε i t , ( i = 1 , 2 , . . . , N ; t = 1 , 2 , . . . , T ) y_{it}=α + X_{it}'β + ε_{it}, (i = 1,2,...,N; t=1,2,...,T) yit=α+Xit′β+εit,(i=1,2,...,N;t=1,2,...,T) | 对任何变量和截面参数α和β都相同,且混合最小二乘估计了Pooled OLS是一致性估计量 |
2,固定效应模型
类型 | 公式 | 特点 |
---|---|---|
个体固定 | y i t = α i + X i t ′ β + ε i t , ( i = 1 , 2 , . . . , N ; t = 1 , 2 , . . . , T ) y_{it}=α_{i} + X_{it}'β + ε_{it}, (i = 1,2,...,N; t=1,2,...,T) yit=αi+Xit′β+εit,(i=1,2,...,N;t=1,2,...,T) | α i α_{i} αi表示对于不同的个体i有不同的截距项, α i α_{i} αi在方程中也可以是dummy化的多个虚拟变量来表示。个体固定模型其强假定条件 E ( ε i t ∥ α i , X i t ) = 0 E(ε_{it} \| α_{i} ,X_{it})=0 E(εit∥αi,Xit)=0 |
时点固定 | y i t = γ t + X i t ′ β + ε i t y_{it}=γ_{t} + X_{it}'β + ε_{it} yit=γt+Xit′β+εit | γ t γ_{t} γt对于T个时间截面有T个不同的截距项 |
个体时点双固定 | y i t = α 0 + α i + γ t + X i t ′ β + ε i t y_{it}=α_{0} + α_{i} + γ_{t} + X_{it}'β + ε_{it} yit=α0+αi+γt+Xit′β+εit | 全部参数估计量都是不具有一致性的 |
对于个体固定效应模型
个体效应
α
i
α_{i}
αi未知,
E
(
α
i
∥
X
i
t
)
随
X
i
t
而
变
化
E(α_{i}\|X_{it})随X_{it}而变化
E(αi∥Xit)随Xit而变化,但不知是怎样变化的,所以
E
(
y
i
t
∥
X
i
t
)
E(y_{it}\|X_{it})
E(yit∥Xit)不可识别。对于短期面板数据,个体固定效应模型是正确的,β的混合OLS估计量不具有一致性。
下面解释个体固定效应模型的原因
假定有面板数据模型如下
y
i
t
=
β
0
+
β
1
X
i
t
+
β
2
z
i
+
ε
i
t
y_{it}=β_0 + β_1X_{it} + β_2z_{i} + ε_{it}
yit=β0+β1Xit+β2zi+εit
z
i
z_{i}
zi表示随个体变化,但不随时间变化的难以观测的变量。
令
α
i
=
β
0
+
β
2
z
i
α_{i} = β_0 + β_2z_{i}
αi=β0+β2zi
于是个体固定效应模型就变成我们最开始假设的样子了。
y
i
t
=
α
i
+
X
i
t
′
β
+
ε
i
t
y_{it}=α_{i} + X_{it}'β + ε_{it}
yit=αi+Xit′β+εit
可见, α i α_{i} αi中包括了那些随个体变化,但不随时间变化的,难以观测的变量的影响。所以,当对个体固定效应模型中的变量进行差分时,可以剔除那些随个体变化,但是不随时间变化的,难以观测的变量的影响,即剔除 α i α_{i} αi的影响。
对于时点固定效应模型
与个体固定效应模型类似
假定有面板数据模型如下
y
i
t
=
γ
0
+
β
1
X
i
t
+
γ
2
z
t
+
ε
i
t
y_{it}=γ_0 + β_1X_{it} + γ_2z_{t} + ε_{it}
yit=γ0+β1Xit+γ2zt+εit
令
γ
t
=
γ
0
+
+
γ
2
z
t
γ_{t} = γ_0 + + γ_2z_{t}
γt=γ0++γ2zt
于是可以得到
y
i
t
=
γ
t
+
X
i
t
′
β
+
ε
i
t
y_{it}=γ_{t} + X_{it}'β + ε_{it}
yit=γt+Xit′β+εit
这正是时点固定效应模型的形式,截距项 γ t γ_{t} γt包括了哪些随时间不同但不随个体变化的,难以预测的变量。
注意:
- 三种固定效应类型当中,个体固定效应最常用;
- 个体时点固定效应模型当然,不可以加AR项目;
3,随机效应模型
类型 | 公式 | 特点 |
---|---|---|
随机效应模型 | y i t = α i + X i t ′ β + ε i t y_{it}=α_{i} + X_{it}'β + ε_{it} yit=αi+Xit′β+εit | 参数估计具有一致性,但不具有有效性 |
随机效应模型与固定效应模型的相同点都是随机变量,不同点即是对截距项的假定,是否独立同分布。假设如下:
α
i
α_{i}
αi ~
i
i
d
(
α
,
σ
α
2
)
iid(α,σ_{α}^2)
iid(α,σα2)
ε
i
ε_{i}
εi ~
i
i
d
(
0
,
σ
ε
2
)
iid(0,σ_{ε}^2)
iid(0,σε2)
都被假定为独立同分布,但没有限制是何分布。
对于个体随机效应模型,
E
(
α
i
∣
X
i
t
)
=
α
E(α_{i}|X_{it})=α
E(αi∣Xit)=α,
E
(
y
i
t
∣
x
i
t
)
=
α
+
X
i
t
′
β
E(y_{it} | x_{it}) =α + X_{it}'β
E(yit∣xit)=α+Xit′β
所以,固定效应和随机效应的称呼并不十分的恰当。固定效应模型应该称之为“相关效应模型”,“随机效应模型”应该称之为“非相关效应模型”。
4,动态模型
类型 | 公式 | 特点 |
---|---|---|
动态模型 | y i t = γ y i ( t − 1 ) + α i + X i t ′ β + ε i t y_{it}= γy_{i(t-1)} + α_{i} + X_{it}'β + ε_{it} yit=γyi(t−1)+αi+Xit′β+εit | ∥ γ ∥ < 1 \|γ\|<1 ∥γ∥<1,且估计量不具有一致性 |
二,面板数据模型的估计方法
方法 | 适用模型 |
---|---|
混合最小二乘(Pooled OLS) 估计 | 混合模型 |
平均数最小二乘(between OLS) 估计 | 混合模型和个体随机效应模型 |
离差变换最小二乘(within OLS) 估计 | 个体固定效应模型 |
一阶差分最小二乘(first difference OLS) 估计 | 个体固定效应模型 |
可行广义最小二乘(feasible GLS) 估计 | 随机效应模型 |
1, 混合最小二乘(Pooled OLS)
混合最小二乘实际上就是把截面上和时序上的观测值混合在一起不作区分,然后用第二章讲过的最小二乘OLS直接求解参数。
把混合效应模型
y
i
t
=
α
+
X
i
t
′
β
+
ε
i
t
y_{it}=α+ X_{it}'β + ε_{it}
yit=α+Xit′β+εit
改为
y
=
W
γ
+
μ
y= Wγ + μ
y=Wγ+μ
当
E
(
μ
∣
W
)
=
0
E(μ|W)=0
E(μ∣W)=0条件满足时,且
μ
μ
μ与X 无关时,即
C
o
v
(
X
i
t
,
ε
i
t
)
=
0
Cov(X_{it},ε_{it})=0
Cov(Xit,εit)=0,
则,
γ
^
=
(
W
′
W
)
−
1
W
′
y
\hat{γ}=(W'W)^{-1}W'y
γ^=(W′W)−1W′y
问题:
- C o v ( X i t , ε i t ) = 0 Cov(X_{it},ε_{it})=0 Cov(Xit,εit)=0很难成立,因为个体i与其残差项往往是序列相关的;估计精度被夸大
- 如果模型存在个体固定效应,则参数估计不再具有与一致性
假定模型是个体固定效应模型,却被当做混合模型则可表示为:
y
i
t
=
α
+
X
i
t
′
β
+
ε
i
t
=
α
+
X
i
t
′
β
+
(
α
i
−
α
)
+
ε
i
t
=
α
+
X
i
t
′
β
+
μ
i
t
y_{it}=α+ X_{it}'β + ε_{it}=α+ X_{it}'β +(α_{i}-α)+ ε_{it}=α+ X_{it}'β +μ_{it}
yit=α+Xit′β+εit=α+Xit′β+(αi−α)+εit=α+Xit′β+μit
其中,
μ
i
t
=
α
i
−
α
+
ε
i
t
μ_{it}=α_{i}-α+ε_{it}
μit=αi−α+εit
因为
α
i
与
X
i
t
相
关
,
所
以
μ
i
t
也
与
X
i
t
相
关
α_{i}与X_{it}相关,所以μ_{it}也与X_{it}相关
αi与Xit相关,所以μit也与Xit相关,个体固定效应模型通过混合OLS得到的参数将不具有一致性。
2,平均数最小二乘(between OLS)
先对N个个体,各自求得在时序上的平均数,从而将个体效应模型
y
i
t
=
α
i
+
X
i
t
′
β
+
ε
i
t
y_{it}=α_{i}+ X_{it}'β + ε_{it}
yit=αi+Xit′β+εit
变为
y
i
‾
=
α
i
+
X
i
‾
′
β
+
ε
i
‾
\overline{y_{i}}=α_{i}+ \overline{X_{i}}'β + \overline{ε_{i}}
yi=αi+Xi′β+εi
对该式进行OLS估计,得到平均数最小二乘。
因为
α
i
与
X
i
t
相
关
,
所
以
α
i
与
X
i
‾
也
相
关
α_{i}与X_{it}相关,所以α_{i}与 \overline{X_{i}}也相关
αi与Xit相关,所以αi与Xi也相关个体固定效应的最小二乘估计不具有一致性。
3,离差变换最小二乘(within OLS)
把每个个体与其个体的平均值做离差变换,消掉截距项
α
i
α_{i}
αi,得到
y
i
t
−
y
i
‾
=
(
X
i
t
′
−
X
i
‾
)
β
+
(
ε
i
t
−
ε
i
‾
y_{it}-\overline{y_{i}}=(X_{it}'-\overline{X_{i}})β + (ε_{it}-\overline{ε_{i}}
yit−yi=(Xit′−Xi)β+(εit−εi)
对上式进行OLS得到离差变换最小二乘,参数估计量β具有一致性。
如果对固定效应感兴趣,可以按下式估计:
a
i
^
=
y
i
‾
−
X
i
‾
′
β
^
\hat{a_i}=\overline{y_{i}}-\overline{X_{i}}'\hat{β}
ai^=yi−Xi′β^
个体固定效应模型通常采用的就是离差变换OLS估计
4,一阶差分最小二乘(first difference OLS)
对于个体固定效应模型
y
i
t
=
α
i
+
X
i
t
′
β
+
ε
i
t
y_{it}=α_{i}+ X_{it}'β + ε_{it}
yit=αi+Xit′β+εit
其,滞后一期模型为
y
i
t
−
1
=
α
i
+
X
i
t
−
1
′
β
+
ε
i
t
−
1
y_{it-1}=α_{i}+ X_{it-1}'β + ε_{it-1}
yit−1=αi+Xit−1′β+εit−1
一阶差分得到,
y
i
t
−
y
i
t
−
1
=
(
X
i
t
′
−
X
i
t
−
1
′
)
β
+
(
ε
i
t
−
ε
i
t
−
1
)
y_{it}-y_{it-1}=(X_{it}'- X_{it-1}')β + (ε_{it}-ε_{it-1})
yit−yit−1=(Xit′−Xit−1′)β+(εit−εit−1)
对上式进行OLS估计量得到的参数β具有一致性。
在T>2,参数
ε
i
t
ε_{it}
εit独立同分布时,一阶差分OLS不如离差变换OLS估计量有效。
5, 可行广义最小二乘(feasible GLS,FGLS)
三,模型选择
1,F检验
2,Hausman检验
四,假设检验
1,单位根检验
查看序列是否平稳
- Quah检验(1990)
- LL(Levin-Lin)检验(1992)
- LLC(Levin-Lin-Chu)检验(2002)
- Breitung检验(2002)
- Hadri检验
- Abuaf-Jorion检验(1990),Jorion-Sweeney检验(1996)
- Bai-Ng检验(2001),Moon-Perron检验(2002)
- IPS(Im-Pesaran-Shin)检验(1997,2002)
2,协整检验
非平稳序列时判断是否协整
参考:张晓峒面板数据模型理论与应用课件