R语言进行数据预处理

最新推荐文章于 2023-03-07 10:06:41 发布

helen1313

最新推荐文章于 2023-03-07 10:06:41 发布

阅读量2.1w

点赞数 14

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/helen1313/article/details/38041243

版权

本文介绍了使用R语言进行数据预处理的方法，包括缺失值处理（直接删除法、随机插补法、均值法、回归模型插补法、热平台插补和冷平台插补）和噪声数据处理，如离群值检测，通过实例展示了如何应用这些方法处理数据。

摘要由CSDN通过智能技术生成

4.R语言进行数据预处理

在实际情况下，数据通常是不完整（缺少属性值或某些感兴趣的属性，或仅包含聚集数据）、含噪声（包含错误或存在偏离期望的离群值）、不一致的，这样的数据必须经过预处理，剔除其中的噪声，回复数据的完整性和一致性后才能使用数据挖掘技术进行分析。

使用mice软件包中的示例数据nhanes2来进行演示。加载mice包前，要先加载lattice,MASS, nnet包：

install.packages("lattice")

install.packages("MASS")

install.packages("nnet")

library(lattice)

library(MASS)

library(nnet)

install.packages("mice")

library(mice)

data(nhanes2)

缺失值处理

判断是否存在缺失值：

> sum(is.na(nhanes2)) #计算nhanes2中缺失值数量

[1] 27

>

>sum(complete.cases(nhanes2)) #计算nhanes2中完整样本的数量

[1] 13

> md.pattern(nhanes2)

age hyp bmi chl

13 1 1 1 1 0

1 1 1 0 1 1

3 1 1 1 0 1

1 1 0 0 1 2

7 1 0 0 0 3

0 8 9 1027

其中1表示没有缺失数据，0表示存在缺失数据。

1. 直接删除法

这种方法最为简单有效，但前提是缺失数据的比例较少，且缺失数据是随机出现的，这样删除数据后对分析影响不大。

2. 随机插补法

从整体中随机抽取某个样本代替缺失样本。

> #随机插补法

> sub =which(is.na(nhanes2[,4]) == TRUE) #返回nhanes2数据集中第4列为NA的行

> dataTR =nhanes2[-sub,] #将第4列不为NA的数据存数dataTR中

> dataTE =nhanes2[sub,] #将第4列为NA的数据存入dataTE

> dataTE[,4] =sample(dataTR[,4],length(dataTE[,4]),replace=T) #在非缺失值中简单抽样

> dataTE

age bmi hyp chl

最低0.47元/天解锁文章

关注

14
点赞
踩
113

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。