R极简教程-8：缺失值与异常值

最新推荐文章于 2025-06-09 16:00:00 发布

Joshua_HIT

最新推荐文章于 2025-06-09 16:00:00 发布

阅读量7.6k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： R语言文章标签： r语言数据分析

本文链接：https://blog.csdn.net/Joshua_HIT/article/details/73741593

OK，数据都进来了，下一步要做的是查看数据质量怎么样？尤其要关注的两个问题是，有没有缺失值和异常值。

缺失值

这个很好理解，就是数据不见了呗。比如采集了5000行500列数据，其中某几个数据因为采集或者记录原因失败了，就造成了缺失值。缺失值在R语言中一般用NA来代替。（比如读取文件的时候，如果有些行有些列没有数值，就会自动填为NA）。

R使用NA（不可得）代表缺失值、NaN（不是一个数）代表不可能的值、Inf和-Inf代表正无穷和负无穷，函数is.na()、is.nan()、is.infinite()可分别用于识别缺失值、不可能值和无穷值。

再读取了一批文件以后，我们可以用is.na()函数来查看缺失值：

> A <- matrix(1:36,6,6)
> A
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    1    7   13   19   25   31
[2,]    2    8   14   20   26   32
[3,]    3    9   15   21   27   33
[4,]    4   10   16   22   28   34
[5,]    5   11   17   23   29   35
[6,]    6   12   18   24   30   36
> A[1,3] <- NA
> A[5,2] <- NA
> A[6,6] <- NA
> A
     [,1] [,2