R语言数据清洗实验内容

最新推荐文章于 2023-08-01 15:29:54 发布

icebns

最新推荐文章于 2023-08-01 15:29:54 发布

阅读量856

点赞数 1

分类专栏： R语言

本文链接：https://blog.csdn.net/icebns/article/details/104940835

版权

该博客介绍了如何使用R语言进行数据清洗，包括利用is.na()和complete.case()函数识别缺失值，通过绘制单变量散点图和箱形图用dotchart()和boxplot()函数检测异常值。实验内容涉及导入数据、处理缺失值和异常值，展示了一系列实际操作示例。

摘要由CSDN通过智能技术生成

在 R 语言中，可以使用函数 is.na()判断缺失值是否存在，缺失值通常以 NA 表示。另外函数 complete.case()也可识别样本数据是否完整从而判断缺失情况。在异常值处理之前需要对异常值进行识别，一般多采用单变量散点图或是箱状图进行表示。在 R 中，使用函数 dotchart()、boxplot()实现绘制单变量散点图与箱形图。

实验目的 ① 掌握 R 语言中数据清洗的常用函数； ② 掌握数据的导入导出； ③ 熟悉 R 语言对数据清洗的一般思路。

实验内容 ① 将 bank-additional-full.csv 数据导入到 R； ② 对数据中的缺失值、异常值以及不一致值进行识别和处理。

> mydata<-read.csv("bank-additional-full.csv",sep=";")
> mydata$job[which(mydata$job=='unknown')]<-NA
> mydata$default[which(mydata$default=='unknown')]<-NA
> mydata$education[which(mydata$education=='unknown')]<-NA
> mydata$housing[which(mydata$housing=='unknown')]<-NA
> mydata_2<-is.na(mydata)
> head(mydata_2,3)
age job marital education default housing loan contact month
[1,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[2,] FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE
[3,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
day_of_week duration campaign pdays previous poutcome emp.var.rate
[1,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[2,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[3,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE
cons.price.idx cons.conf.idx euribor3m nr.employed y
[1,] FALSE FALSE FALSE FALSE FALSE
[2,] FALSE FALSE FALSE FALSE FAL