有两种类型的变量:类别(名义型)变量和有序类别(有序型),他们在R中称为因子(factor),函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1... k ](其中k 是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。
举例来说,假设有向量:
diabetes <- c(“type1”,”type2”,”type1”,”type1”)
语句diabetes <- factor(diabetes)将此向量存储为(1, 2, 1, 1),并在内部将其关联为1=Type1和2=Type2(具体赋值根据字母顺序而定)。针对向量diabetes进行的任何分析都会将其作为名义型变量对待,并自动选择适合这一测量尺度的统计方法。
#创建factor
gender.vector <- c("Male", "Female", "Female", "Male", "Male")
factor.gender.vector <- factor(gender.vector)
factor.gender.vector
> factor.gender.vector
[1] Male Female Female Male Male
Levels: Female Male
hair.color.vector <- c("Blonde", "Blonde", "Brunette", "Ginger", "Grey", "Brunette")