一、缺失值的处理
任何规模的项目都可能存在缺失值,缺失值会影响数据的呈现
1、检测缺失值
R语言中提供了is.na()来检测缺失值是否存在
sum(is.na(nhanes2)) #计算数据集nhanes2中的缺失值总数
is.na(mydata)
2、如何处理缺失值
①直接剔除该字段
rm(mydata['key1'])
②分析中排除缺失值
y=sum(x,na.rm=True)
函数complete.cases()、na.omit()可用来存储没有缺失值的数据框或矩阵形式的实例(行):
newdata<-mydata[complete.cases(mydata),]
newdata<-na.omit(mydata)
③填充缺失值
二、删除不必要的字段
1、subset方法
其中数据为mydf,需要删除的列为X
mydf <- subset(mydf, select = -X )
2、利用布尔类型
myvars=names(mydata)%in%c("key1")
newdata=mydata[!myvars]
3、利用条件筛选出需要的字段条件
newdata=mydata[which(gender=="m",age>30)]
三、重复值的处理
mydata[!duplicated(mydata),]
选择性删除
mydata[!duplicated(mydata【】),]