一、基本流程。
决策树包含一个根节点、若干内部结点、若干叶结点,决策树是一个递归过程。
叶结点——决策结果
其他节点——属性测试
根节点——样本全集
二、划分选择
1.信息增益
信息熵:度量样本集合纯度的常用指标。
2.增益率
减少偏好可能带来的不利影响。
C4.5算法:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
3.基尼指数
CART决策树使用基尼指数划分属性
三、剪枝处理
解决过拟合问题。
预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。
后剪枝:先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往由于预剪枝,但训练时间要大得多。
四、连续与缺失值
1.连续值的处理
连续属性离散化,二分法最简单
2.缺失值处理
五、多变量决策树
线性分类器