一、 缺失值的判别
data <- c(1:100)
da <- replace(data,data>57,NA);da
如图所示,这个数据中有很多缺失值
我们可以用is.na()
函数来判断缺失值
is.na(da)
是TRUE则表明是,FALSE则表明不是缺失值
我们可以用sum
函数来计算缺失值的数量
sum(is.na(da))
可以看出一共有43个缺失值
二、缺失数据的删除
1.na.omit函数
如果数据是数据框的形式,使用此函数效果更佳
当数据是数据框时,使用此函数可以直接删除缺失值,当数据是向量形式时,删除缺失数据的同时也会把缺失的数据给指出来
na.omit(da)#向量形式
2.用is.na函数
da[!is.na(da)]
三、缺失值的替换
1.替换为均值
da[is.na(da)]=mean(da[!is.na(da)]);da
可以看出缺失值变成了29
2.替换为中位数
da[is.na(da)]=median(da[!is.na(da)]);da
3.替换为标准差
da[is.na(da)]=sd(da[!is.na(da)]);da
4.插值法替换数据
样本插值法
install.packages("zoo")
library(zoo)
na.spline(da)