R语言：用R语言填补缺失的数据

最新推荐文章于 2023-08-25 00:03:28 发布

weixin_33828101

最新推荐文章于 2023-08-25 00:03:28 发布

阅读量2.3k

点赞数

文章标签： r语言数据结构与算法开发工具

原文链接：http://www.cnblogs.com/tecdat/p/9288765.html

版权

本文探讨了R语言中处理缺失数据的方法，包括快速分类MCAR和MNAR缺失数据，通过数据模式分析了解缺失情况，并利用mice和VIM包进行可视化。通过案例，展示了如何使用complete()函数完成数据集，并通过散点图和密度图分析填补后的数据效果。

摘要由CSDN通过智能技术生成

缺少数据在分析数据集时可能不是一个微不足道的问题。

如果缺失数据的量相对于数据集的大小非常小，那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略，但是留下可用的数据点会剥夺某些数据的特征。

尽管某些快速修正如均值替代在某些情况下可能很好，但这种简单的方法通常会向数据中引入偏差。

在这篇文章中，我们将使用airquality数据集（在R中提供）来推测缺失值。

为了本文的目的，我将从数据集中删除一些数据点。

快速分类缺失数据

有两种类型的缺失数据：

MCAR：随意丢失。

MNAR：不是随意丢失的。随机数据丢失是一个更严重的问题，在这种情况下，进一步检查数据收集过程并尝试理解信息丢失的原因可能是明智的。例如，如果调查中的大多数人没有回答某个问题，他们为什么这样做？这个问题不清楚吗？

假设数据是MCAR，太多丢失的数据也可能成为一个问题。

pMiss < - function（x）{sum（is.na（x））/ length（x）* 100}

我们发现臭氧几乎失去了25％的数据点，因此我们可能会考虑将其从分析中删除或收集更多的测量数据。

其他变量低于5％的阈值，所以我们可以保留它们。就样本而言，仅缺少一个特征会导致每个样本缺失25

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。