决策树ID3算法

本文介绍了决策树算法,特别是ID3算法。ID3通过信息增益选择最优属性,递归构建决策树。以气象数据为例,展示了如何利用ID3算法进行分类。同时,讨论了过拟合问题及其解决方案,包括先剪枝和后剪枝策略。
摘要由CSDN通过智能技术生成

经典的决策树算法

• ID3

• C4.5

• CART

都采用了贪心方法,决策树以自顶向下递 归的分治方式构造。

决策树算法:

1. 树以单个节点 N

开始,N代表D中的训练元组

如果样本都在同一个类,则该节点 N 成为树叶, 并用该类标记它 / 候选集合属性为空

2. 否则,算法调用属性选择方法确定分裂准则

选择能够最好的将样本分类的属性,该属性成为 节点的“测试”或“判定”属性。

3. 对测试属性每个已知的值,创建一个分支,并以 此划分样本

东华大学计算机科学与技术学院 -45

4. 算法使用同样的过程,递归的形成每个划分上的 样本判定树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现

5. 递归划分步骤停止的条件

• 给定节点的所有样本属于同一类

• 没有剩余属性可以用来进一步划分样本

• 没有剩余的样本

 

分类算法ID3

采用信息增益,熵entropy作为不纯度测量

选择属性的标准:选择具有最高信息增益的属性。该属性使结果分区中对元组分类所需要的信息量最小,反应这些分区中的最小,反映这些分区中的最小随机性或“不纯性”。

 

三个步骤:

1.原始信息熵

假设有两个类:P 和 N

集合S中含有p个类别为P的样本,n个类别为N的样本

将S中一个已知样本进行分类所需要的期望信息定义为:


2.新的信息熵

假设使用属性A将把集合S划分成 V份 { S 1 , S 2, …, S v } 

• 如果S i中包含p i个类别,为P 的样本, n i个类别为N的样本。那么新的信息需求就是:


3.信息增益

信息增益定义为:原有信息需求 – 新的信息需求

 

实际例子分析

14天的气象数据(指标包括outlook,temperatureÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值