缺失值记号
- NA (Not Available,不可用)表示缺失值
- NaN(Not a Number,非数值)表示不可能出现的值
检测缺失值
is.na()函数可以用来检测缺失值是否存在,如:
> y<-c(1,2,3,NA)
> is.na(y)
[1] FALSE FALSE FALSE TRUE
> y<-c(1,2,3,NaN )
> is.na(y)
[1] FALSE FALSE FALSE TRUE
可以看出 ,is.na()函数是如何作用在对象上的:它会返回相同大小的对象,如果某个位置是缺失值,则相应的位置会被改写成TRUE,否则会被改写成FALSE。
需要注意的是:
- 缺失值是无法比较的,即便是与缺失值自身的比较。
- R并不把无限的或者不可能出现的数值标记为缺失值。
- 含有缺失值的算术表达式和函数的结果也是缺失值
> y<-c(1,2,3,NA)
> is.na(y)
> [1] FALSE FALSE FALSE TRUE
> x<-sum(y)
> x
[1] NaN
消除缺失值:
设置na.rm=TRUE
> x<-sum(y,na.rm=TRUE)
> x
[1] 6
缺失值一行删除:
删除所有含有缺失数据的行
使用na.omit()
> mydata
x1 x2 x3 x4
1 1 5 6 3
2 2 6 8 4
3 3 7 NA 5
4 4 8 12 6
> newdata<-na.omit(mydata)
> newdata
x1 x2 x3 x4
1 1 5 6 3
2 2 6 8 4
4 4 8 12 6