R语言数据清洗实验内容

该博客介绍了如何使用R语言进行数据清洗,包括利用is.na()和complete.case()函数识别缺失值,通过绘制单变量散点图和箱形图用dotchart()和boxplot()函数检测异常值。实验内容涉及导入数据、处理缺失值和异常值,展示了一系列实际操作示例。
摘要由CSDN通过智能技术生成

 在 R 语言中,可以使用函数 is.na()判断缺失值是否存在,缺失值通常以 NA 表示。另外 函数 complete.case()也可识别样本数据是否完整从而判断缺失情况。 在异常值处理之前需要对异常值进行识别,一般多采用单变量散点图或是箱状图进行表 示。在 R 中,使用函数 dotchart()、boxplot()实现绘制单变量散点图与箱形图。

实验目的 ① 掌握 R 语言中数据清洗的常用函数; ② 掌握数据的导入导出; ③ 熟悉 R 语言对数据清洗的一般思路。

实验内容 ① 将 bank-additional-full.csv 数据导入到 R; ② 对数据中的缺失值、异常值以及不一致值进行识别和处理。

> mydata<-read.csv("bank-additional-full.csv",sep=";")
> mydata$job[which(mydata$job=='unknown')]<-NA
> mydata$default[which(mydata$default=='unknown')]<-NA
> mydata$education[which(mydata$education=='unknown')]<-NA
> mydata$housing[which(mydata$housing=='unknown')]<-NA
> mydata_2<-is.na(mydata)
> head(mydata_2,3)
       age   job marital education default housing  loan contact month
[1,] FALSE FALSE   FALSE     FALSE   FALSE   FALSE FALSE   FALSE FALSE
[2,] FALSE FALSE   FALSE     FALSE    TRUE   FALSE FALSE   FALSE FALSE
[3,] FALSE FALSE   FALSE     FALSE   FALSE   FALSE FALSE   FALSE FALSE
     day_of_week duration campaign pdays previous poutcome emp.var.rate
[1,]       FALSE    FALSE    FALSE FALSE    FALSE    FALSE        FALSE
[2,]       FALSE    FALSE    FALSE FALSE    FALSE    FALSE        FALSE
[3,]       FALSE    FALSE    FALSE FALSE    FALSE    FALSE        FALSE
     cons.price.idx cons.conf.idx euribor3m nr.employed     y
[1,]          FALSE         FALSE     FALSE       FALSE FALSE
[2,]          FALSE         FALSE     FALSE       FALSE FAL

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值