R语言之因子(factor)

最新推荐文章于 2024-09-09 18:34:27 发布

Big_Din

最新推荐文章于 2024-09-09 18:34:27 发布

阅读量1.4w

点赞数 3

分类专栏： r语言文章标签： r语言因子 factor

r语言专栏收录该内容

3 篇文章 1 订阅

订阅专栏

变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量，如类型、种类;有序型变量表示一种顺序关系，而非数量关系，如偏好、ID;连续型变量可以呈现为某个范围内的任意值，并同时表示了顺序和数量，如年龄、成绩。

类别（名义型）变量和有序类别（有序型）变量在R中称为因子（factor）。因子在R中非常重要，因为它决定了数据的分析方式以及如何进行视觉呈现。

函数 factor() 以一个整数向量的形式存储类别值，整数的取值范围是[1... k ]（其中k 是名义型变量中唯一值的个数），同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。

对于类别（名义型）变量，举例——创建向量：diabetes <- c("Type1","Type2","Type1","Type1")。语句diabetes <- factor(diabetes)将此向量储存为(1,2,1,1)，并在内部将其关联为1 = Type1和2 = Type2（具体赋值根据字母顺序而定）。

对于有序类别（有序型）变量，需要为函数 factor() 指定参数 ordered=TRUE。给定向量status <- c("Poor","Improve","Excellent","Poor")，语句 status <- factor(status, ordered=TRUE) 会将向量编码为(3, 2, 1, 3)，并在内部将这些值关联为1= Excellent 、2= Improved 以及3= Poor 。

对于字符型向量，因子的水平默认依字母顺序创建。这对于因子 status 是有意义的，因为“Excellent” 、 “Improved” 、 “Poor”的排序方式恰好与逻辑顺序相一致。如果“Poor”被编码为“Ailing” ，会有问题，因为顺序将为“Ailing” 、 “Excellent” 、 “Improved” 。如果理想中的顺序是“Poor” 、 “Improved” 、 “Excellent” ，则会出现类似的问题。按默认的字母顺序排序的因子很少能够让人满意。因此，可以指定levels选项来覆盖默认排序，如status <- factor(status,order = TRUE,levels = c("Poor","Improves","Excellent"))。各水平的赋值将为1= Poor 、2= Improved 、3= Excellent 。（请保证指定的水平与数据中的真实值相匹配，因为任何在数据中出现而未在参数中列举的数据都将被设为缺失值。）

代码清单2-6演示了普通因子和有序因子的不同是如何影响数据分析的。

首先，以向量的形式输入了数据1 。然后，将 diabetes 和 status 分别指定为一个普通因子和一个有序型因子。最后，将数据合并为一个数据框。函数 str(object) 可提供R中某个对象（本例中为数据框）的信息 2。它清楚地显示 diabetes 是一个因子，而 status 是一个有序型因子，以及此数据框在内部是如何进行编码的。注意，函数 summary() 会区别对待各个变量3 。它显示了连续型变量 age 的最小值、最大值、均值和各四分位数，并显示了类别型变量 diabetes 和status （各水平）的频数值。