参考链接:
1、谢文睿-第四章 决策树
2、周志华老师的《机器学习》
1 算法原理
2 划分选择
2.1 ID3决策树
基于信息增益选择属性进行划分。
缺点:对取值数目较多的属性有所偏好。
2.2 C4.5决策树
基于增益率进行属性选择。
缺点:对可取值数目较少的属性有所偏好。
2.3 CART决策树
基于基尼指数进行属性选择。
3 剪枝处理
基于信息增益进行预剪枝和后剪枝。
预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。
后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。