多层线性模型和面板数据模型笔记(待完善,持续更)
申明:部分内容参考网上优秀的热衷分享的作者,此篇文章仅作个人学习的综合整理,侵权自觉删掉。
引用的文章观点主要来自:
知乎:统计学中的「固定效应 vs. 随机效应」
连享会:Stata: 面板数据模型一文读懂
一、多层线性模型Hierarchical Linear Model
1 传统回归分析模型
Y i = β 0 + β 1 X i + ε i Y_i=\beta_0+\beta_1X_i+\varepsilon_i Yi=β0+β1Xi+εi
其中 ε i ∼ N ( 0 , σ 2 ) \varepsilon_i \sim N(0,\sigma^2) εi∼N(0,σ2)
基本假设-来源于伍德里奇教材P129:
线性于参数,随机抽样,不存在完全共线性,误差条件均值为零,误差同方差性,误差正态分布
2 多层数据
多层数据是指观测数据在单位上具有嵌套关系。
比如,学生嵌套于学校。
同一单位内的观测,具有更大相似性。
比如,同一学校的学生比其他学校的学生更具有相似性。
假设现在要考察学校教学设备对学生成绩的影响,在20所学校抽取1000名学生,那么可能有的学校为贵族学校,因此学生家长经济水平较高,可以缴纳更多设备费用,而另外的平民学校则负担不了额外的设备费用,因此,学生成绩受学校的教学设备影响,而学校设备又受学校整体经济水平影响。
多层数据违背了传统回归分析模型的残差相互独立假设,导致其得到的标准误估计不正确(太小)。
假如对个体水平上进行分析,比如每个学生,则假设同一班级的学生间相互独立,是不合理的。
加入对单位水平上进行分析,不如不同班级间的比较,则会丢失班级内学生个体间的差异的信息。
独立性不满足会带来标准误估计偏小从而导致犯第一类错误的概率偏大。
3 处理方式:建立HLM模型
将 Y i j = β 0 + β 1 X i j + ε i j Y_ij=\beta_0+\beta_1X_{ij}+\varepsilon_{ij} Yij=β0+β1Xij+εij 改写成 Y i j = β 0 + β 1 X i j + u j + r i j Y_{ij}=\beta_0+\beta_1X_{ij}+u_j+r_{ij} Yij=β0+β1Xij+uj+rij
其中 u j u_j uj ,定义的是第 j 组的残差项,解释的是总截距和第 j 组的截距之间的差异
而 r i j r_{ij} rij 定义的是第 j 组第 i 个观测的残差项
特点:
-
HLM会把多层嵌套结构数据在因变量上的总方差进行分解:
总方差 = 组内方差(Level 1)+ 组间方差(Level 2)
V a r ( ε i j ) = V a r ( u j ) + V a r ( r i j ) Var(\varepsilon_{ij})=Var(u_j)+Var(r_{ij}) Var(εij)=Var(uj)+Var(rij)
-
X 和 Y 之间的关系不依赖于 j ( β 1 \beta_1 β1不依赖于 j)
模型的另一种表达:
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …
现在用两个水平分析模型:
水平1即Level 1(如学生,组内的个体):
Y i j = β 0 j + β 1 j X i j + ε i j Y_{ij}=\beta_{0j}+\beta_{1j}X_{ij}+\varepsilon_{ij} Yij=β0j+β1jXij+εij
学 生 成 绩 = β 0 + β 1 ∗ 学 校 设 备 建 设 程 度 + r i j 学生成绩=\beta_0+\beta_1*学校设备建设程度+r_{ij} 学生成绩=β0+</