缺少数据在分析数据集时可能不是一个微不足道的问题。
如果缺失数据的量相对于数据集的大小非常小,那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略,但是留下可用的数据点会剥夺某些数据的特征。
尽管某些快速修正如均值替代在某些情况下可能很好,但这种简单的方法通常会向数据中引入偏差。
在这篇文章中,我们将使用airquality数据集(在R中提供)来推测缺失值。
为了本文的目的,我将从数据集中删除一些数据点。
快速分类缺失数据
有两种类型的缺失数据:
MCAR:随意丢失。
MNAR:不是随意丢失的。随机数据丢失是一个更严重的问题,在这种情况下,进一步检查数据收集过程并尝试理解信息丢失的原因可能是明智的。例如,如果调查中的大多数人没有回答某个问题,他们为什么这样做?这个问题不清楚吗?
假设数据是MCAR,太多丢失的数据也可能成为一个问题。
pMiss < - function(x){sum(is.na(x))/ length(x)* 100}
我们发现臭氧几乎失去了25%的数据点,因此我们可能会考虑将其从分析中删除或收集更多的测量数据。
其他变量低于5%的阈值,所以我们可以保留它们。就样本而言,仅缺少一个特征会导致每个样本缺失25