为什么想要写一下列联表呢,是因为它不仅可以用来做简单的描述性统计,还可以用在其它较为深入的领域,比如在机器学习中用来计算识别正确率之类的。本文也主要分为两部分来介绍:
列联表
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。
创建频数表
#查看R自带的数据集
data()
#选择“CO2”这个数据集
head(CO2)
#得到“conc”特征的频数表
table(CO2$conc)
结果:
95 175 250 350 500 675 1000
12 12 12 12 12 12 12
分别对应着各个特征值出现的频数。
创建列联表
列联表相对于频数表来说复杂一点点,推荐使用R中“gmodels包”的CrossTable()函数来做。这里通过决策树C5.0的一个例子来说明:
#加载决策树包
library(C50)
#已经准备好的data_train(训练集)和data_test(测试集)
table(data_train$phone)
table(data_test$phone)
#通过训练集生成决策树模型
boughtmodel<-C5.0(data_train[-1],factor(data_train$phone))
#通过测试集得到预测结果
boughtpredict<-predict(boughtmodel,data_test[-1])
#使用gmodels之前需要安装和加载相关包
install.packages("gmodels")
library(gmodels)
#生成预测结果和测试集实际结果的列联表,
CrossTable(data_test$phone,boughtpredict,prop.chisq=FALSE,prop.r=F, prop.c=F)
函数:
CrossTable(x, y, digits=3, max.width = 5, expected=FALSE, prop.r=TRUE, prop.c=TRUE,
prop.t=TRUE, prop.chisq=TRUE, chisq = FALSE, fisher=FALSE, mcnemar=FALSE,
resid=FALSE, sresid=FALSE, asresid=FALSE,
missing.include=FALSE,
format=c("SAS","SPSS"), dnn = NULL, ...)
参数说明:
x,y:列联表的两个特征向量
digit:指定结果小数位数
prop.r:行比例是否加入
prop.c:列比例是否加入
prop.t:表比例是否加入
prop.chisq:每个单元的卡方值是否加入
chisq:卡方检验结果是否加入
by Yuhua20180528