在统计学中,数据值存在丢失通常可以被划分为两种情况:值随机缺失和值非随机缺失。在本文中,我们重点考虑第二种情况。有时候可以用一个新的变量来标识某一变量值存在丢失,该新的变量同样具有预测或分析的价值。若丢失不是随机的,通常会有一种潜在的解释,而这种解释很大程度上依赖于你需要分析预测的类型。不过如果能够了解到为何存在丢失,就能够在分析潜在母体(population)特征时,避免理解上的偏见。
有时候,某一变量在信息收集时就会丢失。例如,当与一个个体(constituent)直接接触时,他们可能会选择不留下手机号码,而这可能就是一个丢失的值。与这种情况对比而言,如果一个个体能够提供电话号码或者邮箱地址,表明他们更愿意被再联系。
在某一分析模型中,手机号码和邮箱地址可能有一定的用处(如果我们很关注提供区域号码和邮箱地址的提供者时),
可以用一个变量来标识信息的是否存在,该变量表示该提供者是否是愿意被联系或者更开放。当用一个二进制变量来表示我们拥有一个个体的信息,我们可以初步认为该信息有丢失是否具有深层含义。
如果数据丢失是非随机发生的,我们希望能够尽可能的将这些信息反馈到数据集合以及最终形成的模型中。这是一种深入了解值缺失的方式,但一定不是唯一的方式。后续我们将会讨论更多关于处理缺失值的方式。敬请关注!
有时候,某一变量在信息收集时就会丢失。例如,当与一个个体(constituent)直接接触时,他们可能会选择不留下手机号码,而这可能就是一个丢失的值。与这种情况对比而言,如果一个个体能够提供电话号码或者邮箱地址,表明他们更愿意被再联系。
在某一分析模型中,手机号码和邮箱地址可能有一定的用处(如果我们很关注提供区域号码和邮箱地址的提供者时),
可以用一个变量来标识信息的是否存在,该变量表示该提供者是否是愿意被联系或者更开放。当用一个二进制变量来表示我们拥有一个个体的信息,我们可以初步认为该信息有丢失是否具有深层含义。
另外一个典型的例子就是,在调查中有可能存在非随机丢失的变量值---收入。历史上,科学家们发现收入较高的人群往往更倾向于不报告自己的收入。因此可以得出一个假设,对于主动报告收入信息和自我审核的人群可能会有不同的特征。如果我们将收入当作建模参照点,很可能会训练得到比较片面的模型。我们可以验证一下,看看主动报告收入和不报告收入两者之间是否有不同,用一个二进制变量y来表示是否有收入信息,如果两种人群存在差异,我们可以让所训练的模型能够捕获这些不同的特征。
同样的,对于分类变量,如种族,对于所有有缺失值的设定一个新的分类'unknown',这样在测试时就可以用变量y来标识是否有种族信息。如果我们能够确认数据的缺失是非随机的,那么我们就可以减少建模时存在的片面信息。
数据的自然丢失,本质上是有问题的。每当我们用历史数据来预测时,我们期望分析的样本能够尽可能代表的代表实际的母体。若能确定数据集合中丢失的数据源,我们就能够更准确的掌控缺失值,从而提高模型的质量。如果数据丢失是非随机发生的,我们希望能够尽可能的将这些信息反馈到数据集合以及最终形成的模型中。这是一种深入了解值缺失的方式,但一定不是唯一的方式。后续我们将会讨论更多关于处理缺失值的方式。敬请关注!
Caitlin Garrett, Statistical Analyst