频数表和列联表的R语言实现

为什么想要写一下列联表呢,是因为它不仅可以用来做简单的描述性统计,还可以用在其它较为深入的领域,比如在机器学习中用来计算识别正确率之类的。本文也主要分为两部分来介绍:

列联表

列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。

创建频数表

#查看R自带的数据集
data()
#选择“CO2”这个数据集
head(CO2)
#得到“conc”特征的频数表
table(CO2$conc)

结果:

 95  175  250  350  500  675 1000 
 12   12   12   12   12   12   12 

分别对应着各个特征值出现的频数。

创建列联表

列联表相对于频数表来说复杂一点点,推荐使用R中“gmodels包”的CrossTable()函数来做。这里通过决策树C5.0的一个例子来说明:

#加载决策树包
library(C50)
#已经准备好的data_train(训练集)和data_test(测试集)
table(data_train$phone)
table(data_test$phone)
#通过训练集生成决策树模型
boughtmodel<-C5.0(data_train[-1],factor(data_train$phone))
#通过测试集得到预测结果
boughtpredict<-predict(boughtmodel,data_test[-1])
#使用gmodels之前需要安装和加载相关包
install.packages("gmodels")
library(gmodels)
#生成预测结果和测试集实际结果的列联表,
CrossTable(data_test$phone,boughtpredict,prop.chisq=FALSE,prop.r=F, prop.c=F)

函数:

CrossTable(x, y, digits=3, max.width = 5, expected=FALSE, prop.r=TRUE, prop.c=TRUE,
           prop.t=TRUE, prop.chisq=TRUE, chisq = FALSE, fisher=FALSE, mcnemar=FALSE,
           resid=FALSE, sresid=FALSE, asresid=FALSE,
           missing.include=FALSE,
           format=c("SAS","SPSS"), dnn = NULL, ...)

参数说明:

x,y:列联表的两个特征向量
digit:指定结果小数位数
prop.r:行比例是否加入
prop.c:列比例是否加入
prop.t:表比例是否加入
prop.chisq:每个单元的卡方值是否加入
chisq:卡方检验结果是否加入

by Yuhua20180528

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值