15 层次模型
15.1 简介
层次模型,也称为多层模型或混合效应模型,是用于分析具有分层或嵌套结构的数据的统计方法。在层次模型中,数据可以按照不同的层次进行分组,每个层次可能会有不同的影响因子。层次模型允许我们在不同的层次上估计参数,从而更好地捕捉数据的复杂性。
15.2 两级模型
假设我们有一个简单的两级模型,其中学生的成绩受到学校和个体差异的共同影响。模型可以表示为:
其中 是第 j 学校中第 i个学生的成绩, β0是整体均值, 是第 j学校的随机效应, 是学生个体的误差。
在Python中,可以使用statsmodels
库中的MixedLM
类来实现这种层次模型。
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.regression.mixed_linear_model import MixedLM
# 生成模拟数据
np.random.seed(42)
n_groups = 10
n_obs = 100
group = np.repeat(np.arange(n_groups), n_obs // n_groups)
X = np.random.rand(n_obs)
Z = np.random.rand(n_obs)
y = 1 + 0.5 * X + 0.2 * Z + 0.5 * group + np.random.randn(n_obs)
# 创建数据框
df = pd.DataFrame({'y': y, 'X': X, 'group': group})
# 构建层次模型
model = MixedLM.from_formula('y ~ X', groups='group', data=df)
result = model.fit()
# 输出结果
print(result.summary())
15.3 层次模型中的固定效应与随机效应
在层次模型中,固定效应(fixed effects)指的是整体适用的参数,而随机效应(random effects)则表示数据中的随机偏差。例如,在上述模型中, β0是固定效应,而 是随机效应。
15.4 多级模型
多级模型是层次模型的扩展,允许更多层次的分组。例如,考虑一个三层模型,其中学生嵌套在班级中,班级嵌套在学校中。模型可以表示为:
其中是班级效应,是学校效应, 是个体误差。
# 更新数据,加入班级效应
n_classes = 20
class_group = np.repeat(np.arange(n_classes), n_obs // n_classes)
df['class_group'] = class_group
# 构建多级模型
model = MixedLM.from_formula('y ~ X', groups='class_group', re_formula='~X', data=df)
result = model.fit()
# 输出结果
print(result.summary())
15.5 层次模型的应用与解释
层次模型适用于许多实际问题,例如教育研究中的学生成绩分析、医学研究中的患者数据分析等。通过层次模型,可以在不同层次上估计参数,并考虑数据中的组内和组间差异。
层次模型的解释需要考虑各层次的固定效应和随机效应。例如,在一个学校的研究中,固定效应可以解释整个学生群体的总体趋势,而随机效应则反映了各个学校或班级的特定偏差。