AI-理论-吃瓜教程-决策树-task3
(Datawhale37期组队学习)
1知识点
- 流程
- 划分选择
- 信息熵
- 信息增益
- 增益率
- 基尼系数
2具体内容
2.1流程
- 决策树(decision tree),判定树
- 叶节点-》决策结果
- 根节点(包含样本全集)、内部节点(包含对应样本集合)-》属性测试
- 根-叶:判定测试序列
- 递归
2.2划分选择
纯度越来越高
2.2.1信息熵
- Ent(D)值越小,D纯度越高
2.2.2信息增益
- Gain(D,a)信息增益越大,使用属性a划分获得的纯度提升越大
- ID3决策树使用信息增益为准则
- 偏好取值数目较多的属性
2.2.3增益率
- 增益率偏好取值数据较少的属性
- C4.5决策树使用启发式增益率为准则
- 先从划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的
2.2.4基尼指数
- 反映从数据集D随机抽取两个样本,其类别标记不一致的概率。Gini(D)越小,数据集D的纯度越高
- CART决策树使用基尼系数为准则
- 属性a的基尼指数,选择基尼指数最小的属性
3待补充
4Q&A
无
5code
无
6参考
- https://github.com/datawhalechina/pumpkin-book