R语言:用R语言填补缺失的数据

本文探讨了R语言中处理缺失数据的方法,包括快速分类MCAR和MNAR缺失数据,通过数据模式分析了解缺失情况,并利用mice和VIM包进行可视化。通过案例,展示了如何使用complete()函数完成数据集,并通过散点图和密度图分析填补后的数据效果。
摘要由CSDN通过智能技术生成

缺少数据在分析数据集时可能不是一个微不足道的问题。

如果缺失数据的量相对于数据集的大小非常小,那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略,但是留下可用的数据点会剥夺某些数据的特征。

尽管某些快速修正如均值替代在某些情况下可能很好,但这种简单的方法通常会向数据中引入偏差。

 

在这篇文章中,我们将使用airquality数据集(在R中提供)来推测缺失值。

为了本文的目的,我将从数据集中删除一些数据点。

 

快速分类缺失数据

有两种类型的缺失数据:

MCAR:随意丢失。

MNAR:不是随意丢失的。随机数据丢失是一个更严重的问题,在这种情况下,进一步检查数据收集过程并尝试理解信息丢失的原因可能是明智的。例如,如果调查中的大多数人没有回答某个问题,他们为什么这样做?这个问题不清楚吗?

假设数据是MCAR,太多丢失的数据也可能成为一个问题。

pMiss < -  function(x){sum(is.na(x))/ length(x)* 100}

 

我们发现臭氧几乎失去了25%的数据点,因此我们可能会考虑将其从分析中删除或收集更多的测量数据。

 

其他变量低于5%的阈值,所以我们可以保留它们。就样本而言,仅缺少一个特征会导致每个样本缺失25

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值