一.介绍
类比:性别:男、女
年纪:一年级、二年级、三年级
二.基本语法
factor(x=character(),levels,labels=levels,exclude=NA,order=is.ordered(x),nmax=NA)
levels:用来指定因子可能的水平(缺省值是向量x中互异的值)
labels:用来指定水平的名字
exclude:表示从向量x中剔除的水平值
1)
因子为 A B C
2)
指定因子是 A B,C的地方显示空,因子只有A B
3)
指定因子代表的名字
4)
剔除某一因子
三.创建因子
colour<-c('G','G','R','Y','Y','R')
col<-factor(colour)
colour是字符串类型,col是因子类型
col<-factor(colour,labels = c('green','red','yellow'))
指定因子名字
as.vector 转化为向量
ps:
当调换因子型数据的取值水平(levels)或字符标签(labels)时,所得向量取值发生相应变化,即levels与labels有对应关系成立,但当不对levels或labels进行设置时,各个字符的数字代码则按照字母表顺序从1开始依此取值,如:
因子型数据不可进行数值运算
转换为数值型数据后可参与运算
四.有序因子
1.ordered()
2.cut()函数
分组后,每个数值以组的形式出现
五.常用函数
tapply()
根据gender分组求age的平均值