随着大数据时代的到来,数据量激增,机器学习方法起到越来越重要的作用。本期介绍的是机器学习中的决策树,并借助R语言进行实证分析。
一、理论介绍
1.决策树基础知识
决策树是数据挖掘中的重要技术,通过一些潜在的规则信息进行分析,产生预测模型。决策树主要用于分类,也可以用于回归,当输出变量是分类变量时,是分类树;当输出变量是连续变量时,为回归树。目前国际上最有效的决策树方法有三种:一个是CART法,另一个是Quinlan于1986年提出的ID3法[1],还有一个是Quinlan于1993年提出的改进算法C4.5[2]。其中CART既可以用于分类树又可以用于回归树,而ID3和C4.5只能用于分类树。
决策树的优缺点都比较明显:优点在于它可以直接显示结果的决策过程,比较直观;缺点在于处理复杂性数据时,容易出现分支多管理难度大,及决策缓慢等情况(程秀峰等,2018)[3]。因此,对决策树进行剪枝就显得尤为重要,通过事前剪枝或事后剪枝节省时间,提高树的精度(谭中明等,2018)[4]。由于决策树技术分类规则比较直观并且易于理解,因此在决策中较为常见,在医疗行业、渔业、保险业等领域均有广泛应用。
2.决策树模型建立
通常情况下,决策树的建立一般分为两个步骤:一是建树,即利用已有数据选取划分算法建立一棵决策树,建立决策树模型;二是剪枝,即对已有的决策树进行修剪,防