前面,小编和大家一起学习了关于决策树C5.0算法进行决策树分析,今天,继续学习使用CART算法进行决策树分析。
首先,我们了解一下CART算法与C5.0算法的区别:
- 目标变量类型:C5.0算法只能处理分类型目标变量,CART算法既能处理分类型,也能处理连续型目标变量生成分类树;
- 衡量指标不同:在决策树生长阶段,CART算法分别采用基尼系数(分类树)以及方差(回归树)作为树生长的衡量指标;
- 修剪方法不同:C5.0基于悲观误差估计进行剪枝,而CART算法是根据最小代价复杂度剪枝;
- 树形结构不同:CART决策树是一种二叉树结构,无论变量的水平有多少种,最后只会生成两个分支。C5.0决策树则能生成多叉树。
1. CART算法实现决策树分析
CART决策树节点
案例:Demo数据文件“bankloan.sav”。(违约风险分析,识别每名客户属于违约组还是非违约组)