固定效应(fixed-effects)和随机效应(random-effects)这对概念,大家通常会在两个地方见到,第一是多层次模型之中,第二是追踪数据分析,也可以认为追踪数据是一种特殊的多层次模型,因为时间也算是“层次”的概念。这两组概念也是经常一起出现,有时又不太好区分的。
1、为什么使用固定效应或是随机效应?
首先,从回归假定的角度来看,如果残差独立性的假定被违背,即残差存在相关性那么就要使用固定效应或随机效应进行解决,并且固定效应对于残差相关的解决更为彻底。
其次,从具体应用的角度来看,固定效应和随机效应模型因果推断的重要方法之一。
我们先来看一个例子:假设我们想研究科研人员阅读文献的时间对其科研成果的影响,一般的做法是做一个简单线性回归,控制影响文献阅读时间和科研成果的变量,来估计阅读文献的影响,但问题是我们把永远无法控制所有的混淆变量,例如一个人的接受能力等等。而如果我们在不同时间点多次测量这个问题,可以用固定效应模型对科研人员的固定属性进行控制。这样就把混淆变量进行了消除。
最后,从数据的角度来看,目前国内外越来越重视追踪调查,如CEPS、CFPS等大型追踪数据越来越多,能够有价值的利用这些数据,使用固定效应和追踪效应模型是必然要求。
2、固定效应、随机效应原理与区别
首先,我们先来通过数学公式来理解二者的原理与区别。
从上述方程可以看出,固定效应控制住了所有个人层面不随时间变化的异质性。换句话说,通过固定效应模型,我们可以得到同一个个体从自变量的一种状态转变到另一种状态时所引起的因变量的变化。
固定效应模型在无偏估计方面具有优秀的统计性质。但是,由于他的模型中纳入了多个固定解决,就会导致自由度大量损失,从而会有更大的标准误、p值和更宽的置信区间,并且固定效应模型只能估计自变量存在的变化对因变量的影响,如果自变量没有变化,或者变化很少则无法估计。为了应对这一问题,随机效应模型就应运而生,随机效应模型和固定效应模型的区别就是固定截距变为随机截距,这也是两个模型命名的主要原因(不再赘述随机效应的方程)。
3、应该使用固定效应还是随机效应?
两者的选择主要可以从两个方面进行考量:
第一,从统计的角度,一般而言在研究时要分别拟合固定效应模型和随机效应模型,然后进行霍斯曼检验,如果二者存在显著的统计差异则应使用固定效应模型,如果没有显著的差异则应使用随机效应模型。
第二,从应用的角度,主要区分自变量在不同年份变化情况,如果变化较多则需要使用固定效应,变化较少使用随机效应。但是,二者的霍斯曼检验是必不可少的,也就是说在固定效应和随机效应的选择上,更多的还是依赖统计,而不是你的具体应用。
4、软件操作:R & Stata
R语言:
R包:plm
library(plm)
固定效应模型:
fixed(因变量~自变量,data=XXX,index=c(“ID”),model=within)
其中index是指需要固定的,在一般的追踪调查数据中是id
随机效应模型:
random(因变量~自变量,data=XXX,index=c(“ID”),model=random)
Stata命令:
xtset ID
xtreg y x,fe //固定效应
xtreg y x,re //随机效应
