数据缺失机制的分类
- 完全随机缺失
数据的缺失不依赖任何测量值。
如受试者因为工作原因从一个地方搬到另外一个地方,远离了原来的研究中心而无法继续试验。 - 随机缺失
数据的缺失依赖于已经观测到的测量值,而不依赖于未观测到的测量值。
如受试者在临床试验中因为疗效不好从而退出试验。 - 非随机缺失
数据的缺失依赖于未观测到的测量值。
如受试者在之前的访视中一切良好,然而在某次访视后疾病恶化从而退出试验。
当数据缺失是完全随机缺失或者随机缺失的时候,根据现有的试验数据做出的统计推断依然是有效的(尽管不会像完整的数据那么有效)。如果数据缺失是非随机缺失的,根据现有的数据做出的统计推断很有可能会产生偏倚。
数据缺失模式的分类
多重填补(MI)
给每一个缺失值都构造m个填补值,产生m个完整数据集,对每个完整数据集分别使用相同的方法进行处理,得到m个处理结果,再综合这m个结果,最终得到对目标变量的估计。
多重插补并没有试图去通过模拟值去估计每个缺失值,而是提出缺失数据值的一个随机样本,借此估计变量的实际后验分布,这反映了缺失值引起的不确定性。