Python数据挖掘学习笔记-决策树分类

1、决策树算法原理&主要流程框架

决策树方法在分类、决策、规则提取等领域有着广泛的应用。

决策树是一种树状结构,其中包含三种节点:

  • 根节点:没有入边,但有零条或多条出边。
  • 内部节点:恰有一条入边和两条或多条出边。
  • 叶节点:恰有一条入边,但没有出边。

也就是说每一个叶节点对应着一个分类,非叶节点对应着某个属性上的划分。

构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。
常用的决策树算法有ID3算法、C4.5算法、CART算法等,下面介绍经典的ID3算法。

ID3算法
在决策树的各级节点上都用信息增益作为判断标准进行属性的选择,使得在每个节点上都能获得最大的类别分类增益,使分类后的额数据集的熵最小,这样使得树的平均深度最小,从而有效地提高了分类效率。

ID3算法流程框架
1. 对当前样本集合,计算所有属性的信息增益;
2. 选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集;
3. 若子样本集的类别只有单个,则分支为叶节点;否则对子样本集循环调用本算法。

用属性A划分样本集S后所得的信息增益(Gain)为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值