R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

74 篇文章 346 订阅

好多同学手上有纵向数据,想看轨迹,看人群异质性,咨询做法,今天给大家写两个方法,一个叫潜增长模型Latent Class Growth Analyses (LCGA) ,一个叫增长混合模型Growth Mixture Modeling (GMM)。

这个异质性怎么看呢,就是基于人的不同发展的轨迹的出来的:

They can be used to identify latent subgroups, classes or clusters of individuals based on their common growth trajectories over time.

两个模型都可以看作是增长模型growth mode的拓展:

LCGA can roughly be seen as an extension of a fixed effect growth model, whereas GMM can be seen as an extension of a random effect growth model

LCGA和GMM的区别

这两种方法都是将传统增长模型与潜类别分析相结合的模型,既可以刻画增长趋势又可以考虑群体异质性的目的。

二者的区别主要在于类别组内的发展轨迹是否考虑增长曲线内部的个体扰动,潜增长模型可以看作是增长混合模型的特例,就是说增长混合模型不考虑随机效应的时候就可以认为是潜增长模型:

A special case of GMMs is latent class growth analysis (LCGA)[15],[16] which does not allow for departure from the average trajectory within each latent class。Thus, in contrast to mixed effects models where each subject's intercept and slope are drawn from a normal distribution or GCMMs where they are drawn from a mixture of normal distributions,LCGAs allow only for a limited set of discrete options。

实例操练

我现在手上有500个重复测量的数据集,100个观测,每个观测连续测量5次。数据大概长这样:

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

这个数据还有一个协变量covar,是一个取0和1的二分类数据,对于这么一个纵向数据,我可以先非常直观地把每个个体的轨迹画出来,假设它是这样的:

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

其实画出来大体一看,似乎是有两个类别的轨迹出现的,具体是不是呢?我们得使用分析方法验证。

我们的分析的目的就是识别这些轨迹的异质性,从而将人群划分为不同的类别。

先看用潜增长模型如何做,我们需要用到lcmm包中的hlme函数,基本形式如下图:

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

其中fixed为线性混合模型的固定效应部分,“~”符号左边写因变量右边写自变量,自变量用加号链接。mixture参数只有在类别数大于一的时候才需要设置,我们做1个类别是不需要的;random参数是随机效应部分,因为我们做的是潜增长(没有混合),也没有必要设置这一个参数,subject用来设置嵌套结构的主体,此例中是“ID”;ng是潜类别个数;classmb是逻辑增长中的协变量,所以也不需要设置;最终我们写出代码如下:

lcga1 <-hlme(y ~ time, subject = "ID", ng = 1, data = mydata) 
lcga2 <-gridsearch(rep = 100, maxiter = 10, minit = lcga1,
                   hlme(y ~ time, subject = "ID",
                        ng = 2, data = mydata, mixture = ~ time)) 
lcga3 <-gridsearch(rep = 100, maxiter = 10, minit = lcga1,
                   hlme(y ~ time, subject = "ID",
                        ng = 3, data = mydata, mixture = ~ time))

在上面的代码中因为我们是做潜增长,所以省去了随机效应部分(slope and intercept),什么意思呢,就是说我们的模型中做出来的每一类都只考虑固定效应,不会考虑每一类中的个体变异了。还有需要注意的是我们跑一类之后的类别的时候是在gridsearch这个函数之中去嵌套了一hlme,这个操作是为了获得全局最优的结果,具体原理就是将每一个hlme函数用不同的起始值跑100遍。此时我们还设置了mixture参数,因为我们是跑大于1个类别了嘛,就是说每一类我都要考虑时间的固定效应。

lcga3的代码的解释也请参考上段。

运行上面的代码之后我们的潜增长模型就跑好了,下面的代码可以方便地比较不同类别数量模型的拟合优度,从而帮助我们判断:

summarytable(lcga1, lcga2, lcga3)

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

我们还可以用summary很方便地查看具体模型的信息:

summary(lcga2)

运行代码便可以得到我们需要在论文中报告的系数了:

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

到此,潜增长模型做完。

继续,增长混合模型,增长混合模型的混合又分为两种了,一种是随机截距,另一种是随机斜率,我们分开看

先看随机截距

还是我们之前的数据,我们做随机截距增长混合模型可以写出如下代码:

gmm1 <-hlme(y ~ time, subject = "ID", random=~1, ng = 1, data = mydata)
gmm2 <-gridsearch(rep = 100, maxiter = 10, minit = gmm1, 
                  hlme(y ~ time, subject = "ID", random=~1,
                       ng = 2, data = mydata, mixture = ~ time, nwg=T))
gmm3 <-gridsearch(rep = 100, maxiter = 10, minit = gmm1,
                  hlme(y ~ time, subject = "ID", random=~1,ng = 3, 
                       data = mydata, mixture = ~ time, nwg=T))

可以看到增长混合模型与增长模型唯一的不同就是混合模型多了一个random参数

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

这个random参数就是用来设定随机效应的,我们只要随机截距所以直接设定为1就行。上面的代码中还有一个参数nwg我们设定为True,意思是随机效应的方差协方差是类别特异的,我们的例子中就是说每个类别的随机截距的方差是不同的:

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

运行上面的代码,一个带随机截距的增长混合模型就拟合好了,我们看结果:

summarytable(gmm1, gmm2, gmm3)

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

可以看到随机截距增长混合模型输出和和潜增长模型的差别就在于多了一个随机效应的方差协方差矩阵,在我们的结果中,类别2的截距方差为0.306,类别1的截距方差为0.306*1.12=0.343

以上就是随机截距增长混合模型。

接着看随机斜率增长混合模型

在随机斜率增长混合模型中我们认为,每一个类别中每个人允许有不同的时间效应,就是说每个人的增长斜率可以不一样,具体我们写出如下代码:

gmm1_2 <-hlme(y ~ time, subject = "ID", random=~1 + time, ng = 1, 
              data =mydata)
gmm2_2 <-gridsearch(rep = 100, maxiter = 10, minit = gmm1_2, 
                    hlme(y ~ time, subject = "ID", random=~1 + time,
                         ng = 2, data = mydata, mixture = ~ time, nwg=T))
gmm3_2 <-gridsearch(rep = 100, maxiter = 10, minit = gmm1_2,
                    hlme(y ~ time, subject = "ID", random=~1+time,ng = 3, 
                         data = mydata, mixture = ~ time, nwg=T))

可以看到,代码的不同之处就是random参数的设定不一样了,其余都是一样的,运行代码后我们的随机斜率增长混合模型就出来了

summarytable(gmm1_2, gmm2_2, gmm3_2)

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

可以看到模型二表现得最好,增长混合模型验证了我们数据分为两类的假设,我们具体看看模型二的结果输出:

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

输出的结果中展示了两个类别时的每一类中时间的固定效应和和第二类随机效应,同样的类别1的随机效应可以通过矩阵和比例系数相乘得到。

以上就是所有的潜增长和增长混合模型的做法介绍。

如何在论文中报告结果

看了一些些水水的论文哈,基本都是报告几个拟合优度指数,还有轨迹的时间系数,然后讨论一番:

R数据分析:论文中的轨迹的做法,潜增长模型和增长混合模型

上面的结果描述来自于一篇中国青少年抑郁症状轨迹的研究。大家可以参考。在我们的结果输出中都是有相应的系数的。

小结

今天给大家写了常见轨迹的做法,希望对大家有用,感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,请转发本文到朋友圈后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏,再点赞分享。

也欢迎大家的意见和建议,大家想了解什么统计方法都可以在文章下留言,说不定我看见了就会给你写教程哦,另欢迎私信。

  • 15
    点赞
  • 78
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
### 回答1: 《线性和广义线性混合模型及其统计诊断.pdf》是一本关于线性混合模型和广义线性混合模型以及统计诊断的相关内容的论文或书籍。 线性混合模型是一种广泛应用于数据分析的统计模型,主要用于建模连续型或离散型响应变量受到多个因素影响的情况。它通过结合固定效应和随机效应来描述数据的结构和变异,能够更准确地进行统计推断和预测。线性混合模型在许多领域都有广泛的应用,如生物学、医学、经济学等。 广义线性混合模型是线性混合模型的扩展,它能够应用于更广泛的响应变量类型,包括二项分布、泊松分布、负二项分布等。广义线性混合模型通过引入广义线性模型的概念,并将其与线性混合模型的随机效应结合,能够更灵活地对不同类型的响应变量进行建模和分析。 统计诊断是对模型拟合的合理性和准确性进行评估和判断的一种方法。在线性和广义线性混合模型,统计诊断一般包括残差分析、检验模型假设、共线性检验、模型比较等。通过对模型的统计诊断,可以评估模型的合理性和可靠性,发现在问题并进行改进。 总之,《线性和广义线性混合模型及其统计诊断.pdf》是一本介绍线性混合模型和广义线性混合模型以及统计诊断的著作,它将帮助读者理解和应用这些模型,并提供相关的统计诊断工具和方法。 ### 回答2: 《线性和广义线性混合模型及其统计诊断.pdf》是一本关于线性和广义线性混合模型的统计学书籍。线性混合模型是一种用于研究具有随机效应的数据的统计工具。它将固定效应和随机效应结合起来,可以同时考虑个体和群体水平的变异。广义线性混合模型是线性混合模型的扩展,可以处理非正态分布的响应变量。 这本书介绍了线性和广义线性混合模型的基本概念和理论。首先,它介绍了线性模型和广义线性模型的基础知识,包括模型假设、参数估计和模型选择等内容。然后,它详细介绍了线性混合模型的构建和分析方法,包括随机效应的建模和估计、固定效应的显著性检验和模型比较等。接着,它介绍了广义线性混合模型的概念和应用,包括二项分布模型、泊松分布模型和负二项分布模型等。 此外,《线性和广义线性混合模型及其统计诊断.pdf》还介绍了如何进行统计诊断和模型诊断。它讲述了如何检验模型的假设是否成立、模型的拟合效果如何以及如何进行异常值检测等。通过这些统计诊断方法,研究人员可以评估模型的可靠性和有效性,并对模型进行改进和优化。 总之,《线性和广义线性混合模型及其统计诊断.pdf》是一本介绍线性和广义线性混合模型及其统计诊断的重要参考书籍。它将理论知识和实际应用相结合,帮助读者更好地理解和应用线性和广义线性混合模型。无论是从事统计学研究还是应用需要,这本书都可以为读者提供有价值的指导。 ### 回答3: 《线性和广义线性混合模型及其统计诊断.pdf》是一篇关于统计学方法的研究论文。该论文讨论了线性混合模型(Linear Mixed Models,LMM)和广义线性混合模型(Generalized Linear Mixed Models,GLMM)的概念和应用,并介绍了它们的统计诊断方法。 线性混合模型是一种在统计学常用的模型,用于解决具有多层次结构的数据分析问题。它可以同时考虑固定效应和随机效应,并充分利用了数据的结构。广义线性混合模型是对线性混合模型的扩展,可以处理非正态和非线性的响应变量。 论文提到了线性混合模型和广义线性混合模型的参数估计方法,包括最大似然估计和贝叶斯估计。此外,还介绍了模型的拟合度诊断方法,如残差分析、离群值检测和模型比较等。这些统计诊断方法可以用来评估模型的合理性和可靠性,帮助研究者做出正确的数据分析和结果解释。 该论文的内容较为深入和专业,对于有一定统计学基础和相关研究背景的读者来说是一份宝贵的参考资料。它不仅介绍了线性混合模型和广义线性混合模型的原理和应用,还详细介绍了相关的统计诊断方法。通过该论文的学习,读者可以更好地理解和应用这些模型,并进行正确的统计分析和结果解释。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

公众号Codewar原创作者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值