r语言 rgl 强制过程中_R语言中的因子型变量

最新推荐文章于 2023-10-12 08:48:53 发布

weixin_39622138

最新推荐文章于 2023-10-12 08:48:53 发布

阅读量378

点赞数

文章标签： r语言 rgl 强制过程中

v2-36219cb27b868e59c0a6795f18a842a1_1440w.jpg?source=172ae18b

原文链接：R语言中的因子型变量微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings

因子与因子水平

R语言的数据类型中，因子（Factor）型比较特殊，也让许多初学者感到难以理解。其实就像整型用来存储整数、字符型用来存储字符或字符串类似，因子型是用来存储类别的数据类型，因子型变量因此是离散变量。
eg:五个用户月均通话次数分别是（15, 1, 63, 19, 122），存储在变量calls_num中。此时calls_num是一个数值型变量，有五个值，且理论上每个值的取值范围是0到+∞。如果想将这个变量进行离散化，根据[0,10] , (10,100] ,(100,+∞]将次数划分为低频、中频、高频三个类别，这时便可建立一个因子型变量f_calls_num记录每个用户月均通话次数所在类别，即（中频，低频，中频，中频，高频）。因子水平（Level）表示因子的值域，因子的每个元素只能取因子水平中的值或缺失。上例中，因子水平就是（低频，中频，高频）。

R语言实现

创建因子

R语言中，通过factor()函数建立因子型变量。

> calls_num<-c(15,1,63,19,122)
> calls_num[1]1516319122
>class(calls_num)
[1] "numeric"
>f_calls_num<-factor(calls_num)
>f_calls_num
[1] 15  1  63  19  122
Levels:1 15 19 63 122
>class(f_calls_num)[1] "factor"

其中，class（）函数用来检测变量类别。可以看出，calls_num为数字型，经过转化后，f_calls_num变为因子型。Levels表示因子水平。这里还需要注意的一点是，R默认创建数据框时，将文本类型存储为因子型。如果想取消此操作，可在data.frame函数或read.csv函数中设置stringAsFactors=F参数。

因子水平

可通过levels()函数输出因子水平。

> levels(f_calls_num)
[1]"1""15""19""63""122"
>class(levels(f_calls_num))
[1]"character"

通过上面的例子可以发现，levels的元素都是character类型，可以通过as.character()函数将因子型转化为字符型。
通过设置factor函数中的参数，可以修改因子水平。

> f_calls_num<-factor(calls_num,labels=c('a','b','c','d','e'),ordered=TRUE)
> f_calls_num
[1] b a d c e
Levels: a < b < c < d < e
#levels(f_calls_num)<-c('a','b','c','d','e')
#f_calls_num<-ordered(f_calls_num)

labels表示对因子水平重命名，ordered=TRUE表示建立有序分类。可以用注释部分代码实现相同的效果。删除多余因子水平
在实际应用中，会出现实际取值范围小于因子水平。为了满足特定的运算或提升存储效率，可以使用droplevels()函数删除多余因子水平。

> levels(f_calls_num)<-c('a','b','c','d','e','f')
> f_calls_num
[1] b a d c eLevels: a b c d e f
> droplevels(f_calls_num)
[1] b a d c eLevels: a b c d e

连续数据分组

我们前面讲的例子中，要根据次数大小对数据进行离散化分组，此时可通过cut()函数实现。

> f_calls_num2<cut(calls_num, breaks = c(0,10,100,Inf),labels = c('dipin','zhongpin','gaopin'),include.lowest = T,ordered_result = T)
> f_calls_num2
[1] zhongpin dipin    zhongpin zhongpin gaopin
Levels: dipin< zhongpin < gaopin