目录
1.因子
1.1 介绍
在R语言中,变量分为连续型变量,有序型变量和名义型变量,连续型变量是有可量化的课比较数据,有序型变量是不可量化的可比较的数据而名义型数据是不可比较的数据,其中名义型变量和有序型变量称为因子(factor),这些变量的可能值称为一个水平(level),由这些水平值构成的向量就是因子
1.2 使用
将数据转化为因子
> mtcars$cyl
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4
[22] 8 8 8 8 4 4 4 8 6 8 4
> table(mtcars$cyl)
4 6 8
11 7 14
创建因子
> week<-factor(c("mon","tue","wen","thu","fri","sta","sun"))
>
> week
[1] mon tue wen thu fri sta sun
Levels: fri mon sta sun thu tue wen
还可以自行定义水平值的比较关系
> week<-factor(c("mon","tue","wen","thu","fri","sta","sun"),ordered = T,levels = c("mon","tue","wen","thu","fri","sta","sun"))
> week
[1] mon tue wen thu fri sta sun
7 Levels: mon < tue < wen < thu < ... < sun
进行有规律的分组 ,比如将1到10分为两两一组
> num<-1:100
> num<-1:10
> cut(num,c(seq(0,10,2)))
[1] (0,2] (0,2] (2,4] (2,4] (4,6] (4,6]
[7] (6,8] (6,8] (8,10] (8,10]
Levels: (0,2] (2,4] (4,6] (6,8] (8,10]
2.缺失数据
2.1 介绍
在搜集数据中有一些数据因为数据搜集不完整等原因造成了数据缺失,在R中NA代表缺失值是一种非常重要的缺失数据,注意NA不等于0
2.2 发现NA
我们可以通过is.na函数发现缺失值的位置
> a<-c(NA,1,2,3,4,5,6)
> a
[1] NA 1 2 3 4 5 6
> is.na(a)
[1] TRUE FALSE FALSE FALSE FALSE FALSE FALSE
2.3 移除NA
我们不希望由于个别的数据缺失导致整个数据集不能使用,所以大部分R的统计函数包含移除NA值的参数na.rm
> a<-c(NA,1,2,3,4,5,6)
> a
[1] NA 1 2 3 4 5 6
> sum(a,na.rm = T)
[1] 21
2.4 其他缺失数据
2.4.1 NaN
NaN表示不可能的数据,例如分母上的0。
2.4.2 Inf
Inf表示无穷,分为正负无穷大两种,分别表示无穷大和无穷小