目录
我们一直被缺失的数据包围着。长期以来,统计分析中因数据缺失而产生的问题一直被掩盖着。这些时代现在正在慢慢结束。在过去的几十年中,处理缺失数据的一系列技术已经大大扩展。本专题将介绍利用生成对抗网络进行缺失数据填补,欢迎关注。
一、背景分析
原始论文链接:GAIN: Missing Data Imputation using Generative Adversarial Nets
1.1 缺失数据
Rubin(1976. “Inference and Missing Data.” Biometrika 63 (3): 581–90.)将缺失数据问题分为三类。
- 如果所有情况下缺失的概率都相同,则数据称为完全随机缺失(missing completely at random,MCAR)。这实际上意味着数据缺失的原因与数据无关。MCAR的一个例子是电池耗尽的称重秤。它在所有情况下缺失概率都一样;
- 如果缺失数据仅取决于观测变量,则称为随机缺失(missing at random,MAR)。MAR是一个比MCAR更广泛的类别。例如,当放置在柔软表面上