线性回归、线性混合效应和广义线性混合效应的三个模型举例分析和广义线性混合效应的R代码示范

R科学与人工智能

已于 2024-08-09 15:54:27 修改

阅读量4.7k

点赞数 13

文章标签：线性回归数据分析 python

于 2024-07-06 18:34:35 首次发布

本文链接：https://blog.csdn.net/2301_79425796/article/details/140233387

版权

一、线性回归模型（Linear Regression Model, LM）

图：Francis Galton

线性回归模型的概念最早可以追溯到19世纪初。它是回归分析中最早被严格研究并广泛应用的类型，奠定了现代统计学的基础。英国生物学家兼统计学家弗朗西斯·高尔顿（Francis Galton, 1822-1911）在研究人类遗传问题时首次提出了“回归”的概念。他在观察和分析遗传特征时，发现了回归现象，并对其进行了详细研究。1855年，高尔顿发表了《遗传的身高向平均数方向的回归》一文。他通过观察1078对父子的身高数据，发现数据的散点图大致呈现直线状态，并首次建立了父子身高之间的线性关系模型。这是线性回归模型在实际应用中的第一次突破。在高尔顿的研究中，他观察到一个有趣的现象：极端高或矮的父母的子女身高往往会“回归”到平均水平。他将这种现象称为“向平均数方向的回归”（regression toward mediocrity）。这一术语由此而来，成为回归分析的重要概念。高尔顿的学生K·Pearson继续研究父辈与子代身高的关系。他们共同观察了1078对夫妇的数据，发现父母平均身高与成年儿子身高之间存在明显的线性关系。这一发现进一步巩固了线性回归模型在遗传研究中的应用。

现代应用

随着时间的推移，线性回归模型的应用范围不断扩大。从最初研究遗传特征，逐步发展成为一种广泛应用于各个领域的统计分析方法。例如，在经济学、医学、社会科学和工程学等领域，线性回归模型被用于分析和预测变量之间的关系。

应用场景

线性回归模型适用于独立观测值的数据分析，假设观测值之间不存在相关性，且误差项服从正态分布。这个模型的主要用途是寻找一个线性方程来描述自变量（独立变量）和因变量（依赖变量）之间的关系。

具体例子

假设我们要研究某医院的医生工作时间与其绩效评分之间的关系。数据来自于某医院的医生，每个医生的绩效评分仅测量一次。我们可以使用线性回归模型来建立一个方程，预测医生的绩效评分（因变量）与工作时间（自变量）之间的关系。这个方程可能类似于：

绩效评分=β0+β1×工作时间+ϵ绩效评分=β0+β1×工作时间+ϵ

其中，β0β0 是截距，β1β1 是工作时间的回归系数，ϵϵ 是误差项。

二、线性混合效应模型（Linear Mixed-Effects Model, LMM）

图：George Biddel Airy

线性混合效应模型的发展历程可以追溯到19世纪，经历了多个重要阶段。19世纪中期，英国天文学家乔治·艾里（George Biddel Airy）在1861年首次提出了一个包含随机效应的一维模型，为LMM奠定了基础，这项工作甚至早于R.A. Fisher系统性研究方差分析。进入20世纪初，R.A. Fisher在1918年和1925年的开创性工作中，为混合效应模型提供了更正式的理论基础，他研究了方差分析范式下的相关问题，如组内相关等，为LMM的发展奠定了坚实的理论基础。在20世纪中期，混合效应方差分析模型开始被广泛用于分析纵向数据，通常被称为单变量重复测量方差分析。随着计算能力的提升，20世纪后期，Laird和Ware在1982年首次将这些模型应用于纵向数据分析，推动了LMM在复杂数据分析中的应用。进入21世纪，LMM成为分析非独立、多层次/分层、纵向数据的主要方法之一，能够同时处理固定效应和随机效应，特别适用于数据中存在非独立性的情况，并在医学、社会科学、教育等多个领域得到了广泛应用。近年来，统计软件的进步使LMM变得更加易于使用，R、SAS、SPSS等软件包都提供了实现LMM的功能。

应用场景

线性混合效应模型适用于具有嵌套或重复测量的数据。这种模型不仅考虑固定效应（例如，自变量对因变量的整体影响），还考虑随机效应（例如，数据分组中的变异）。LMM 能处理组内相关性，如医生在同一医院中的测量值可能相关，或者同一医生的多次测量值相关。

具体例子

我们可以研究不同医院医生的工作时间与其绩效评分的关系。数据来自多个医院的医生，每个医生的绩效评分在多个时间点测量。使用线性混合效应模型，我们可以考虑医院之间的差异和医生个体的差异。这时的模型可能类似于：

绩效评分ij=β0+β1×工作时间ij+uj+ϵij绩效评分ij=β0+β1×工作时间ij+uj+ϵij

其中，β0β0 和 β1β1 是固定效应，ujuj 是医院的随机效应，ϵijϵij 是误差项。

三、广义线性混合效应模型（Generalized Linear Mixed-Effects Model, GLMM）

图：青年的R.A. Fisher

广义线性混合效应模型的发展历程可以追溯到20世纪初，经历了多个重要阶段。20世纪初，R.A. Fisher在1918年和1925年的开创性工作中，为混合效应模型提供了理论基础，他研究了方差分析范式下的相关问题，如组内相关等，为后来的模型发展奠定了坚实的理论基础。20世纪中期，混合效应方差分析模型开始被广泛用于分析纵向数据，通常被称为单变量重复测量方差分析，这一时期的研究为LMM和GLMM的发展奠定了重要基础。1972年，John Nelder和Robert Wedderburn提出了广义线性模型（GLM），将线性回归推广到允许响应变量来自不同分布的情况，如二项分布、泊松分布等，为GLMM的发展奠定了理论基础。1982年，Laird和Ware首次将混合效应模型应用于纵向数据分析，为GLMM的发展奠定了基础，GLMM作为GLM和混合效应模型的结合，逐步形成其现代框架。20世纪末至21世纪初，GLMM的理论框架逐步完善，允许响应变量来自不同分布，同时包含固定效应和随机效应，极大地扩展了模型的应用范围和灵活性。进入21世纪，随着计算能力的提升和算法的改进，GLMM的估计方法不断发展，包括最大似然估计、贝叶斯方法等，使得GLMM在处理复杂数据时更加高效和精确。

应用场景

广义线性混合效应模型适用于非正态分布的响应变量数据分析，如计数数据、二分类数据等。GLMM 不仅可以处理组内相关性，还能考虑固定效应和随机效应。

具体例子

假设我们研究不同医院医生的工作时间与其绩效评分是否达到优秀（优秀/不优秀）之间的关系。数据来自多个医院的医生，考虑到医院间的差异和医生个体的二分类结果（优秀或不优秀）。GLMM 模型可以用来分析这些数据，模型可能类似于：

logit(优秀概率ij)=β0+β1×工作时间ij+uj+ϵijlogit(优秀概率ij)=β0+β1×工作时间ij+uj+ϵij

其中，β0β0 和 β1β1 是固定效应，ujuj 是医院的随机效应，ϵijϵij 是误差项。

表格展示

模型类型	应用场景描述	具体例子
线性回归模型（LM）	适用于独立观测值的数据分析，假设观测值之间不存在相关性，且误差项服从正态分布。	研究某医院的医生工作时间与绩效评分的关系，数据来自一个医院的医生。
线性混合效应模型（LMM）	适用于具有嵌套或重复测量的数据，可以处理组内相关性，考虑固定效应和随机效应。	研究不同医院医生的工作时间与绩效评分的关系，数据来自多个医院的医生，每个医生的绩效评分在多个时间点测量。
广义线性混合效应模型（GLMM）	适用于非正态分布的响应变量数据分析，可以处理组内相关性，考虑固定效应和随机效应，响应变量可以是计数数据、二分类数据等。	研究不同医院医生的工作时间与绩效评分是否达到优秀（优秀/不优秀）的关系，数据来自多个医院的医生。

具体应用分析

线性回归模型（LM）

线性回归模型的应用场景广泛，尤其适用于独立观测值的数据分析。例如，在医院管理中，可以使用线性回归模型来预测医生工作时间与其绩效评分之间的关系。假设某医院希望了解医生的工作时间（自变量）对其绩效评分（因变量）的影响，可以收集历史数据并建立线性回归模型：

绩效评分=β0+β1×工作时间+ϵ绩效评分=β0+β1×工作时间+ϵ

通过该模型，医院可以预测在不同工作时间下医生的预期绩效评分，进而优化工作时间安排。

线性混合效应模型（LMM）

线性混合效应模型在具有嵌套或重复测量的数据中应用广泛。例如，在医院研究中，医生的绩效评分不仅受工作时间的影响，还可能受医院、科室等因素的影响。通过 LMM，可以同时考虑这些层次结构中的不同来源的变异。

假设我们研究不同医院医生的工作时间与绩效评分的关系，数据来自多个医院的医生，每个医生的绩效评分在不同时间点测量。LMM 可以建模如下：

绩效评分ij=β0+β1×工作时间ij+uj+ϵij绩效评分ij=β0+β1×工作时间ij+uj+ϵij

这里，ujuj 代表医院的随机效应，ϵijϵij 是误差项。通过这种模型，我们不仅可以估计工作时间对绩效评分的影响，还能估计医院间的差异。

广义线性混合效应模型（GLMM）

广义线性混合效应模型在处理非正态分布数据时非常有用，尤其在医学研究和管理研究中。例如，在医院管理中，研究人员可能希望分析某种工作安排对医生绩效评分是否达到优秀（优秀/不优秀）的影响。

假设研究不同医院医生的工作时间与其绩效评分是否达到优秀的关系，数据来自多个医院的医生。GLMM 可以建模如下：

logit(优秀概率ij)=β0+β1×工作时间ij+uj+ϵijlogit(优秀概率ij)=β0+β1×工作时间ij+uj+ϵij

这里，β0β0 和 β1β1 是固定效应，ujuj 是医院的随机效应，ϵijϵij 是误差项。通过这种模型，我们可以了解工作时间对医生绩效评分达到优秀的概率的影响，同时考虑不同医院的差异。

Generalized Linear Mixed-Effects Model的R代码

# 安装并加载必要的包
install.packages("nlme")
install.packages("MASS")
install.packages("ggplot2")
library(nlme)
library(MASS)
library(ggplot2)

# 设置随机种子以确保可重复性
set.seed(123)

# 生成示例数据
data_glmm <- data.frame(
  school = rep(1:5, each = 20),
  student = rep(1:100, each = 1),
  study_time = c(rnorm(20, mean = 8, sd = 1.5),  # 学校1
                 rnorm(20, mean = 9, sd = 1.5),  # 学校2
                 rnorm(20, mean = 10, sd = 1.5), # 学校3
                 rnorm(20, mean = 11, sd = 1.5), # 学校4
                 rnorm(20, mean = 12, sd = 1.5)),# 学校5
  pass_fail = rbinom(100, 1, 0.5)
)

# 使用 glmmPQL 拟合广义线性混合效应模型
glmm_model <- glmmPQL(
  fixed = pass_fail ~ study_time,
  random = ~ 1 | school,
  family = binomial,
  data = data_glmm
)

# 查看模型摘要
summary(glmm_model)

# 预测值和置信区间
data_glmm$predicted <- predict(glmm_model, type = "response")
data_glmm$school <- as.factor(data_glmm$school)

# 画图
ggplot(data_glmm, aes(x = study_time, y = pass_fail)) +
  geom_point(aes(color = school), alpha = 0.5) +
  geom_line(aes(y = predicted, group = school, color = school), size = 1) +
  labs(title = "Predicted Pass/Fail by Study Time and School",
       x = "Study Time",
       y = "Probability of Passing",
       color = "School") +
  theme_minimal()

总结

线性回归模型、线性混合效应模型和广义线性混合效应模型在医院绩效分析中各有其独特的应用场景和优势。线性回归模型适用于独立观测值的数据分析，线性混合效应模型适用于具有嵌套或重复测量的数据，而广义线性混合效应模型则适用于非正态分布的响应变量数据分析。理解和正确应用这些模型，有助于我们在实际研究中更准确地分析数据，得出有价值的结论，从而优化医院管理和医生的工作安排。