决策树是解决分类问题的一种常用方法,它是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
决策树的建立可以简单的分为2个过程:
1、决策树的生长
(1)如何从众多的输入变量中找到当前最佳分组变量
(2)如何从分组变量中的众多值中找到一个最佳分割点
2、决策树的剪枝
先剪枝:在建立树模型的时候就开始限制树的长大
后剪枝:先建立一个完整的树,之后在对该树进行修剪
不同的决策树算法对于上述问题的处理方式不同,下面简单的列举了其中3种算法之间的区别:
接下来,我们介绍一下如何使用R软件建立C5.0决策树
R软件有一个专门做C5.0的包C50,这里我们使用的是电信流失用户的数据。
1、载入数据
setwd("F:/Rproject")
telco=read.csv(file='tel.csv',header=TRUE)