关于混合效应模型里固定效应和随机效应的估计,到底是采用MLE还是REML,两者什么区别?另外,什么时候采用REML+KR?相信这些方法大家并不陌生,历史上也有大量的文献介绍这些方法以及区别,可应用者真的明白了吗?或许应用者早已被文献中大量的数学公式绕晕却没有理解方法的核心和思想的真谛。莫慌,最近有个学者McNeish Daniel写了篇文章用人类能看懂的非数学语言介绍了MLE、REML、KR这些方法的核心以及背后的统计思想;由于我没有系统的阅读相关文献,无法保证作者讲解的内容没有错误,所以首先假定作者对MLE、REML、KR的理解是准确的,以后随着理解的提升,如发现错误再予以纠正。在此我总结了作者的核心思想,以飨读者。希望读者看完这篇浓缩版本的介绍之后,如有兴趣,建议阅读作者原文。
1.最大似然估计
最大似然估计在估计混合效应模型里的固定效应和随机效应(方差成分)时,采用迭代交互估计固定效应和方差的方法。估计方差时需要有个参考点,这个参考点就是固定效应,比如均值。所以MLE先估计固定效应,然后估计方差成分。在用MLE时往往固定效应和方差成分的Closed-form solution 是不存在的,此时采用EM或IGLS迭代法去估计。先估计固定效应,此时假定对任何观测的方差或随机效应缺失。然后基于固定效应再去估计方差,依次迭代,直到估计值不再变化为止。下图是ML的估计过程: