R语言之因子(factor)

        变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量,如类型、种类;有序型变量表示一种顺序关系,而非数量关系,如偏好、ID;连续型变量可以呈现为某个范围内的任意值,并同时表示了顺序和数量,如年龄、成绩。

        类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor) 。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。

        函数 factor() 以一个整数向量的形式存储类别值,整数的取值范围是[1... k ](其中k 是名义型变量中唯一值的个数) ,同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。

       对于 类别(名义型)变量,举例——创建向量:diabetes <- c("Type1","Type2","Type1","Type1")。语句diabetes <- factor(diabetes)将此向量储存为(1,2,1,1),并在内部将其关联为1 = Type1和2 = Type2(具体赋值根据字母顺序而定)。

       对于有序类别(有序型)变量,需要为函数 factor() 指定参数 ordered=TRUE。给定向量status <- c("Poor","Improve","Excellent","Poor"),语句 status <- factor(status, ordered=TRUE) 会将向量编码为(3, 2, 1, 3),并在内部将这些值关联为1= Excellent 、2= Improved 以及3= Poor 。

       对于字符型向量,因子的水平默认依字母顺序创建。这对于因子 status 是有意义的,因为“Excellent” 、 “Improved” 、 “Poor”的排序方式恰好与逻辑顺序相一致。如果“Poor”被编码为“Ailing” ,会有问题,因为顺序将为“Ailing” 、 “Excellent” 、 “Improved” 。如果理想中的顺序是“Poor” 、 “Improved” 、 “Excellent” ,则会出现类似的问题。按默认的字母顺序排序的因子很少能够让人满意。因此,可以指定levels选项来覆盖默认排序,如status <- factor(status,order = TRUE,levels = c("Poor","Improves","Excellent"))。各水平的赋值将为1= Poor 、2= Improved 、3= Excellent 。(请保证指定的水平与数据中的真实值相匹配,因为任何在数据中出现而未在参数中列举的数据都将被设为缺失值。)

       代码清单2-6演示了普通因子和有序因子的不同是如何影响数据分析的。

       

       首先,以向量的形式输入了数据1 。然后,将 diabetes 和 status 分别指定为一个普通因子和一个有序型因子。 最后, 将数据合并为一个数据框。 函数 str(object) 可提供R中某个对象 (本例中为数据框)的信息 2。它清楚地显示 diabetes 是一个因子,而 status 是一个有序型因子,以及此数据框在内部是如何进行编码的。注意,函数 summary() 会区别对待各个变量3 。它显示了连续型变量 age 的最小值、最大值、均值和各四分位数,并显示了类别型变量 diabetes 和status (各水平)的频数值

  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值