第4章 决策树

本文介绍了决策树的基本原理,包括以信息增益和增益率选择划分属性的ID3和C4.5算法,以及使用基尼系数的CART算法。讨论了决策树的剪枝处理,如预剪枝和后剪枝,以及如何处理连续值和缺失值。同时,提到了多变量决策树的应用。
摘要由CSDN通过智能技术生成

0.1 术语总结

符号/名词说明
决策树(decision tree)
分而治之(divide-and-conquer)
纯度(purity)
信息熵(information entropy)度量样本集合纯度
信息增益(information gain)
ID3 决策树学习算法以信息增益为准则选择划分属性
C4.5 决策树算法使用增益率(gain raion)来选择最优划分属性
CART 决策树使用基尼系数来选择划分属性,分类和回归任务都可用

0.2 符号总结

符号/名词说明

0.3 知识总结

  • 本章中的算法案例,充分说明了决策树的算法流程
  • 信息增益准则对可取值数目较多的属性有所偏好
  • 增益率准则对可取值数目较少的属性有所偏好,所以并不是直接选择增益率最大的候选划分属性。

1. 基本流程

在这里插入图片描述
在这里插入图片描述

2. 划分选择

在这里插入图片描述

2.1 信息增益

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 增益率

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 基尼系数

在这里插入图片描述

3. 剪枝处理

在这里插入图片描述
在这里插入图片描述

3.1 预剪枝

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 后剪枝

在这里插入图片描述
在这里插入图片描述

4. 连续与缺失值

4.1 连续值处理

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4.2 缺失值处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. 多变量决策树

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6. 阅读材料

在这里插入图片描述

习题

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值