线性回归、线性混合效应和广义线性混合效应的三个模型举例分析和广义线性混合效应的R代码示范

一、线性回归模型(Linear Regression Model, LM)

图:Francis Galton

线性回归模型的概念最早可以追溯到19世纪初。它是回归分析中最早被严格研究并广泛应用的类型,奠定了现代统计学的基础。英国生物学家兼统计学家弗朗西斯·高尔顿(Francis Galton, 1822-1911)在研究人类遗传问题时首次提出了“回归”的概念。他在观察和分析遗传特征时,发现了回归现象,并对其进行了详细研究。1855年,高尔顿发表了《遗传的身高向平均数方向的回归》一文。他通过观察1078对父子的身高数据,发现数据的散点图大致呈现直线状态,并首次建立了父子身高之间的线性关系模型。这是线性回归模型在实际应用中的第一次突破。在高尔顿的研究中,他观察到一个有趣的现象:极端高或矮的父母的子女身高往往会“回归”到平均水平。他将这种现象称为“向平均数方向的回归”(regression toward mediocrity)。这一术语由此而来,成为回归分析的重要概念。高尔顿的学生K·Pearson继续研究父辈与子代身高的关系。他们共同观察了1078对夫妇的数据,发现父母平均身高与成年儿子身高之间存在明显的线性关系。这一发现进一步巩固了线性回归模型在遗传研究中的应用。

现代应用

随着时间的推移,线性回归模型的应用范围不断扩大。从最初研究遗传特征,逐步发展成为一种广泛应用于各个领域的统计分析方法。例如,在经济学、医学、社会科学和工程学等领域,线性回归模型被用于分析和预测变量之间的关系。

应用场景

线性回归模型适用于独立观测值的数据分析,假设观测值之间不存在相关性,且误差项服从正态分布。这个模型的主要用途是寻找一个线性方程来描述自变量(独立变量)和因变量(依赖变量)之间的关系。

具体例子

假设我们要研究某医院的医生工作时间与其绩效评分之间的关系。数据来自于某医院的医生,每个医生的绩效评分仅测量一次。我们可以使用线性回归模型来建立一个方程,预测医生的绩效评分(因变量)与工作时间(自变量)之间的关系。这个方程可能类似于:

绩效评分=β0+β1×工作时间+ϵ绩效评分=β0​+β1​×工作时间+ϵ

其中,β0β0​ 是截距,β1β1​ 是工作时间的回归系数,ϵϵ 是误差项。

二、线性混合效应模型(Linear Mixed-Effects Model, LMM)

图:George Biddel Airy

线性混合效应模型的发展历程可以追溯到19世纪,经历了多个重要阶段。19世纪中期,英国天文学家乔治·艾里(George Biddel Airy)在1861年首次提出了一个包含随机效应的一维模型,为LMM奠定了基础,这项工作甚至早于R.A. Fisher系统性研究方差分析。进入20世纪初,R.A. Fisher在1918年和1925年的开创性工作中,为混合效应模型提供了更正式的理论基础,他研究了方差分析范式下的相关问题,如组内相关等,为LMM的发展奠定了坚实的理论基础。在20世纪中期,混合效应方差分析模型开始被广泛用于分析纵向数据,通常被称为单变量重复测量方差分析。随着计算能力的提升,20世纪后期,Laird和Ware在1982年首次将这些模型应用于纵向数据分析,推动了LMM在复杂数据分析中的应用。进入21世纪,LMM成为分析非独立、多层次/分层、纵向数据的主要方法之一,能够同时处理固定效应和随机效应,特别适用于数据中存在非独立性的情况,并在医学、社会科学、教育等多个领域得到了广泛应用。近年来,统计软件的进步使LMM变得更加易于使用,R、SAS、SPSS等软件包都提供了实现LMM的功能。

应用场景

线性混合效应模型适用于具有嵌套或重复测量的数据。这种模型不仅考虑固定效应(例如,自变量对因变量的整体影响),还考虑随机效应(例如,数据分组中的变异)。LMM 能处理组内相关性,如医生在同一医院中的测量值可能相关,或者同一医生的多次测量值相关。

具体例子

我们可以研究不同医院医生的工作时间与其绩效评分的关系。数据来自多个医院的医生,每个医生的绩效评分在多个时间点测量。使用线性混合效应模型,我们可以考虑医院之间的差异和医生个体的差异。这时的模型可能类似于:

绩效评分ij=β0+β1×工作时间ij+uj+ϵij绩效评分ij​=β0​+β1​×工作时间ij​+uj​+ϵij​

其中,β0β0​ 和 β1β1​ 是固定效应,ujuj​ 是医院的随机效应,ϵijϵij​ 是误差项。

三、广义线性混合效应模型(Generalized Linear Mixed-Effects Model, GLMM)

图:青年的R.A. Fisher

广义线性混合效应模型的发展历程可以追溯到20世纪初,经历了多个重要阶段。20世纪初,R.A. Fisher在1918年和1925年的开创性工作中,为混合效应模型提供了理论基础,他研究了方差分析范式下的相关问题,如组内相关等,为后来的模型发展奠定了坚实的理论基础。20世纪中期,混合效应方差分析模型开始被广泛用于分析纵向数据,通常被称为单变量重复测量方差分析,这一时期的研究为LMM和GLMM的发展奠定了重要基础。1972年,John Nelder和Robert Wedderburn提出了广义线性模型(GLM),将线性回归推广到允许响应变量来自不同分布的情况,如二项分布、泊松分布等,为GLMM的发展奠定了理论基础。1982年,Laird和Ware首次将混合效应模型应用于纵向数据分析,为GLMM的发展奠定了基础,GLMM作为GLM和混合效应模型的结合,逐步形成其现代框架。20世纪末至21世纪初,GLMM的理论框架逐步完善,允许响应变量来自不同分布,同时包含固定效应和随机效应,极大地扩展了模型的应用范围和灵活性。进入21世纪,随着计算能力的提升和算法的改进,GLMM的估计方法不断发展,包括最大似然估计、贝叶斯方法等,使得GLMM在处理复杂数据时更加高效和精确。

应用场景

广义线性混合效应模型适用于非正态分布的响应变量数据分析,如计数数据、二分类数据等。GLMM 不仅可以处理组内相关性,还能考虑固定效应和随机效应。

具体例子

假设我们研究不同医院医生的工作时间与其绩效评分是否达到优秀(优秀/不优秀)之间的关系。数据来自多个医院的医生,考虑到医院间的差异和医生个体的二分类结果(优秀或不优秀)。GLMM 模型可以用来分析这些数据,模型可能类似于:

logit(优秀概率ij)=β0+β1×工作时间ij+uj+ϵijlogit(优秀概率ij​)=β0​+β1​×工作时间ij​+uj​+ϵij​

其中,β0β0​ 和 β1β1​ 是固定效应,ujuj​ 是医院的随机效应,ϵijϵij​ 是误差项。

表格展示

模型类型应用场景描述具体例子
线性回归模型(LM)适用于独立观测值的数据分析,假设观测值之间不存在相关性,且误差项服从正态分布。研究某医院的医生工作时间与绩效评分的关系,数据来自一个医院的医生。
线性混合效应模型(LMM)适用于具有嵌套或重复测量的数据,可以处理组内相关性,考虑固定效应和随机效应。研究不同医院医生的工作时间与绩效评分的关系,数据来自多个医院的医生,每个医生的绩效评分在多个时间点测量。
广义线性混合效应模型(GLMM)适用于非正态分布的响应变量数据分析,可以处理组内相关性,考虑固定效应和随机效应,响应变量可以是计数数据、二分类数据等。研究不同医院医生的工作时间与绩效评分是否达到优秀(优秀/不优秀)的关系,数据来自多个医院的医生。

具体应用分析

线性回归模型(LM)

线性回归模型的应用场景广泛,尤其适用于独立观测值的数据分析。例如,在医院管理中,可以使用线性回归模型来预测医生工作时间与其绩效评分之间的关系。假设某医院希望了解医生的工作时间(自变量)对其绩效评分(因变量)的影响,可以收集历史数据并建立线性回归模型:

绩效评分=β0+β1×工作时间+ϵ绩效评分=β0​+β1​×工作时间+ϵ

通过该模型,医院可以预测在不同工作时间下医生的预期绩效评分,进而优化工作时间安排。

线性混合效应模型(LMM)

线性混合效应模型在具有嵌套或重复测量的数据中应用广泛。例如,在医院研究中,医生的绩效评分不仅受工作时间的影响,还可能受医院、科室等因素的影响。通过 LMM,可以同时考虑这些层次结构中的不同来源的变异。

假设我们研究不同医院医生的工作时间与绩效评分的关系,数据来自多个医院的医生,每个医生的绩效评分在不同时间点测量。LMM 可以建模如下:

绩效评分ij=β0+β1×工作时间ij+uj+ϵij绩效评分ij​=β0​+β1​×工作时间ij​+uj​+ϵij​

这里,ujuj​ 代表医院的随机效应,ϵijϵij​ 是误差项。通过这种模型,我们不仅可以估计工作时间对绩效评分的影响,还能估计医院间的差异。

广义线性混合效应模型(GLMM)

广义线性混合效应模型在处理非正态分布数据时非常有用,尤其在医学研究和管理研究中。例如,在医院管理中,研究人员可能希望分析某种工作安排对医生绩效评分是否达到优秀(优秀/不优秀)的影响。

假设研究不同医院医生的工作时间与其绩效评分是否达到优秀的关系,数据来自多个医院的医生。GLMM 可以建模如下:

logit(优秀概率ij)=β0+β1×工作时间ij+uj+ϵijlogit(优秀概率ij​)=β0​+β1​×工作时间ij​+uj​+ϵij​

这里,β0β0​ 和 β1β1​ 是固定效应,ujuj​ 是医院的随机效应,ϵijϵij​ 是误差项。通过这种模型,我们可以了解工作时间对医生绩效评分达到优秀的概率的影响,同时考虑不同医院的差异。

Generalized Linear Mixed-Effects Model的R代码

# 安装并加载必要的包
install.packages("nlme")
install.packages("MASS")
install.packages("ggplot2")
library(nlme)
library(MASS)
library(ggplot2)

# 设置随机种子以确保可重复性
set.seed(123)

# 生成示例数据
data_glmm <- data.frame(
  school = rep(1:5, each = 20),
  student = rep(1:100, each = 1),
  study_time = c(rnorm(20, mean = 8, sd = 1.5),  # 学校1
                 rnorm(20, mean = 9, sd = 1.5),  # 学校2
                 rnorm(20, mean = 10, sd = 1.5), # 学校3
                 rnorm(20, mean = 11, sd = 1.5), # 学校4
                 rnorm(20, mean = 12, sd = 1.5)),# 学校5
  pass_fail = rbinom(100, 1, 0.5)
)

# 使用 glmmPQL 拟合广义线性混合效应模型
glmm_model <- glmmPQL(
  fixed = pass_fail ~ study_time,
  random = ~ 1 | school,
  family = binomial,
  data = data_glmm
)

# 查看模型摘要
summary(glmm_model)

# 预测值和置信区间
data_glmm$predicted <- predict(glmm_model, type = "response")
data_glmm$school <- as.factor(data_glmm$school)

# 画图
ggplot(data_glmm, aes(x = study_time, y = pass_fail)) +
  geom_point(aes(color = school), alpha = 0.5) +
  geom_line(aes(y = predicted, group = school, color = school), size = 1) +
  labs(title = "Predicted Pass/Fail by Study Time and School",
       x = "Study Time",
       y = "Probability of Passing",
       color = "School") +
  theme_minimal()

总结

线性回归模型、线性混合效应模型和广义线性混合效应模型在医院绩效分析中各有其独特的应用场景和优势。线性回归模型适用于独立观测值的数据分析,线性混合效应模型适用于具有嵌套或重复测量的数据,而广义线性混合效应模型则适用于非正态分布的响应变量数据分析。理解和正确应用这些模型,有助于我们在实际研究中更准确地分析数据,得出有价值的结论,从而优化医院管理和医生的工作安排。

线性回归算法的发展历程可以追溯到19世纪末。以下是线性回归算法的发展历程: 1. 19世纪末,高尔顿他的学生K·Pearson观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量。他们发现父母身高子代身高之间存在近乎一条直线的关系,即回归直线方程为:y^=33.73+0.516x。这是线性回归算法的最早应用之一。 2. 在20世纪初,统计学家卡尔·皮尔逊进一步发展了线性回归算法。他提出了最小二乘法,用于拟合回归直线并估计回归系数。最小二乘法通过最小化残差平方来确定最佳拟合直线,使得预测值与实际观测值之间的差异最小化。 3. 在20世纪中叶,计算机的发展使得线性回归算法得以广泛应用。计算机的出现使得回归分析的计算更加高效准确。此时,线性回归算法开始在各个领域得到广泛应用,包括经济学、社会科学、医学等。 4. 随着时间的推移,线性回归算法不断发展改进。研究人员提出了各种改进的线性回归模型,如多元线性回归、岭回归、lasso回归等。这些改进的模型考虑了更多的因素变量,提高了模型的预测能力解释能力。 5. 近年来,随着机器学习深度学习的兴起,线性回归算法也得到了进一步的发展。线性回归算法被用作其他更复杂模型的基础,如神经网络中的线性层。 总结起来,线性回归算法的发展历程可以追溯到19世纪末,经过了统计学家的研究改进,以及计算机的发展,逐渐成为一种广泛应用的预测分析工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

R科学与人工智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值