0.1 术语总结
符号/名词 | 说明 |
---|---|
决策树(decision tree) | |
分而治之(divide-and-conquer) | |
纯度(purity) | |
信息熵(information entropy) | 度量样本集合纯度 |
信息增益(information gain) | |
ID3 决策树学习算法 | 以信息增益为准则选择划分属性 |
C4.5 决策树算法 | 使用增益率(gain raion)来选择最优划分属性 |
CART 决策树 | 使用基尼系数来选择划分属性,分类和回归任务都可用 |
0.2 符号总结
符号/名词 | 说明 |
---|---|
0.3 知识总结
- 本章中的算法案例,充分说明了决策树的算法流程
- 信息增益准则对可取值数目较多的属性有所偏好
- 增益率准则对可取值数目较少的属性有所偏好,所以并不是直接选择增益率最大的候选划分属性。
1. 基本流程
2. 划分选择
2.1 信息增益
2.2 增益率
2.3 基尼系数
3. 剪枝处理
3.1 预剪枝
3.2 后剪枝
4. 连续与缺失值
4.1 连续值处理
4.2 缺失值处理
5. 多变量决策树