数据缺失机制的分类
- 完全随机缺失
数据的缺失不依赖任何测量值。
如受试者因为工作原因从一个地方搬到另外一个地方,远离了原来的研究中心而无法继续试验。 - 随机缺失
数据的缺失依赖于已经观测到的测量值,而不依赖于未观测到的测量值。
如受试者在临床试验中因为疗效不好从而退出试验。 - 非随机缺失
数据的缺失依赖于未观测到的测量值。
如受试者在之前的访视中一切良好,然而在某次访视后疾病恶化从而退出试验。
当数据缺失是完全随机缺失或者随机缺失的时候,根据现有的试验数据做出的统计推断依然是有效的(尽管不会像完整的数据那么有效)。如果数据缺失是非随机缺失的,根据现有的数据做出的统计推断很有可能会产生偏倚。
数据缺失模式的分类
多重填补(MI)
给每一个缺失值都构造m个填补值,产生m个完整数据集,对每个完整数据集分别使用相同的方法进行处理,得到m个处理结果,再综合这m个结果,最终得到对目标变量的估计。
多重插补并没有试图去通过模拟值去估计每个缺失值,而是提出缺失数据值的一个随机样本,借此估计变量的实际后验分布,这反映了缺失值引起的不确定性。
插补方法有多重回归填补法(Multiple Regression Imputation)、倾向得分法(Propensity Score)和马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC),由于多重回归填补法和倾向得分法一般运用在数据呈单调缺失的模式中,MCMC 法用于任意缺失模式的连续型变量数据,而临床试验中,临床数据一般是任意缺失的,因此主要运用马尔科夫链蒙特卡罗法。
马尔科夫链蒙特卡罗法
MCMC法是Bayes理论中探索后验概率分布的一种方法,使用MCMC对数据缺失进行多重填补时有以下假设:
假设数据是随机缺失的、是任意缺失的、服从多元正态分布。
填补步骤:
(1) 填补步(imputation step)
每一个迭代过程均以给定的均值μ和协方差矩阵∑开始,从条件分布中为缺失值抽取替代值。
(2)后验步(posterior step)
通过填补步中得到的完整数据估算出整体的均值和方差矩阵,将这些新估算出的数值再次循环应用到填补步中。通过填补步和后验步迭代多次后,得到一个比较稳定的数据集,最终通过迭代数次,使得结果收敛,得到一个稳定的分布。
当没有缺失数据时,填补间方差B=0,B的大小反映了与观察到的数据相比,缺失数据相对包含了多少信息。α和r揭示了Q的估计在多大程度上受到了数据缺失的影响。可依据这些指标选择m。