如何处理丢失数据

数据缺失的概念

对数据分析来说,从经济分析到临床试验,缺失的数据可能会对结果造成天差地别的差距。毕竟,任何分析都和数据一样好。我们不希望产生导致无效结果的有偏见的估计。缺失数据的概念隐含在名称中:它是没有为相关观察变量捕获的数据。

Imputation vs. Removing Data

在处理缺失数据时,可以使用两种主要的方法来解决错误:Imputation或者Removing Data。

Imputation方法对缺失数据进行了合理的猜测。当丢失数据的百分比很低时,它是最有用的。如果缺失数据的比例太高,结果就会缺乏能够产生有效模型的自然变化。

另一种选择是Removing Data。在处理随机缺失的数据时,可以删除相关数据以减少偏差。如果没有足够的观测结果来得出可靠的分析,那么删除数据可能不是最佳选择。在某些情况下,可能需要观察具体事件或因素。

在决定采用哪种方法之前,必须了解数据丢失的原因

数据丢失分析

  1. 随机缺失 (MAR)
    随机缺失是指数据相对于观察到的数据而言是缺失的。它与具体的缺失值没有关系。数据不是在所有观测值中缺失,而只是在数据的子样本中缺失。不知道数据是否应该存在;相反,鉴于观察到的数据,它是缺失的。缺失的数据可以根据完整的观察数据来预测。
  2. 完全随机缺失(MCAR)
    在MCAR的情况下,无论预期值或其他变量如何,数据在所有观察中都是缺失的。可以比较两组数据,一组有缺失观测值,一组没有。使用t检验,如果两组数据之间没有差异,则数据被定性为MCAR。

数据的缺失可能是由于测试设计、观察的失败或记录观察的失败。这种类型的数据被看作是MCAR,因为其缺失的原因是外部的,与观察值没有关系。
通常情况下,删除MCAR数据是安全的,因为结果将是无偏的。测试可能没有那么强大,但结果将是可靠的。

  1. 非随机缺失(MNAR)
    非随机缺失(MNAR)
    MNAR类别适用于缺失数据有一定结构的情况下。换句话说,数据的缺失似乎是有原因的。在一项调查中,也许一个特定的群体–比如说45到55岁的女性–没有回答一个问题。像MAR一样,数据不能由观察到的数据决定,因为缺失的信息是未知的。数据科学家必须对缺失的数据进行建模,以形成一个无偏见的估计,只需删除有缺失数据的观察值,就可以得到一个有偏见的模型。
    功能,你可以将本地的图片直接拖拽到编辑区域直接展示;

Deletion

在处理丢失的数据时,有两种主要的删除数据的方法:列表法和删除变量。

列表法

在这种方法中,有一个或多个缺失值的观察值的所有数据都被删除。分析只在有完整数据集的观察点上运行。如果数据集很小,这可能是将这些案例从分析中剔除的最有效方法。然而,在大多数情况下,数据不是完全随机缺失的(MCAR)。删除观察值缺失的实例会导致参数和估计值的偏差,并降低分析的统计能力。

成对删除
成对删除假设数据是完全随机缺失的(MCAR),但所有有数据的案例,甚至那些有缺失数据的案例,都被用于分析中。成对删除允许数据科学家使用更多的数据。然而,由于基于不同的数据集,得出的统计数据可能有所不同。这些结果可能无法用完整的数据集来重复。

删除变量

如果超过60%的观察值的数据缺失,如果变量不显著,放弃它可能是明智的。

Imputation

当数据缺失时,删除数据可能是有意义的。然而,这可能不是最有效的选择。例如,如果放弃了太多的信息,可能就无法完成一个可靠的分析,或者可能没有足够的数据来对有缺失数据的观察结果产生可靠的预测。

取而代之的是,有多种解决方案来估算缺失数据的价值。根据数据缺失的原因,归因方法可以提供合理可靠的结果,下面是替换缺失数据的单一归因方法的例子。

Mean, Median and Mode

这是在处理缺失数据时最常见的估算值的方法之一。在有少量缺失观测值的情况下,可以计算出现有观测值的平均值或中位数。然而,当有许多缺失的变量时,平均数或中位数的结果可能会导致数据的变化损失。这种方法不使用时间序列特征,也不依赖于变量之间的关系。

时间序列的具体方法
另一个选择是在适当的时候使用特定的时间序列方法来归纳数据。有四种类型的时间序列数据。

Time-Series Specific Methods

另一个选择是在适当的时候使用特定的时间序列方法来归纳数据。有四种类型的时间序列数据:

1.没有趋势或季节性。
2.有趋势,但没有季节性。
3.季节性,但没有趋势。
4.既有趋势又有季节性。
时间序列的归因方法假设相邻的观测值会像缺失的数据一样。当这个假设成立的时候,这些方法的效果很好。但是在有强烈季节性的情况下,这些方法并不能产生合理的结果。

最后一次观测结转(LOCF)和下一次观测结转(NOCB)

这些选项用于分析纵向重复测量数据,其中可能缺少后续观察。在这种方法中,每一个缺失的值都用最后一个观测值替换。纵向数据跟踪同一实例在时间轴上的不同点。该方法易于理解和实现。然而,当数据有明显的趋势时,这种方法可能会引入偏差。它假定该值因丢失的数据而不变。

线性插值

线性插值通常是用某个函数在其他点上的两个已知值来逼近该函数的值。这个公式也可以理解为加权平均数。权值与端点到未知点的距离成反比。较近的点比较远的点影响更大。

在处理缺失数据时,在表现趋势线的时间序列中使用此方法,但不适用于季节性数据。

用线性插值进行季节调整

在处理同时显示趋势和季节性特征的数据时,使用线性插值的季节调整。首先,可以通过计算一个居中的移动平均数或取多个平均数的平均值(比如两个一年的平均值)来进行季节性调整,这些平均值被一个时期相对于另一个时期的平均值所抵消。然后可以像上面的用线性插值完成数据平滑。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值