经典的决策树算法
• ID3
• C4.5
• CART
都采用了贪心方法,决策树以自顶向下递 归的分治方式构造。
决策树算法:
1. 树以单个节点 N
开始,N代表D中的训练元组
如果样本都在同一个类,则该节点 N 成为树叶, 并用该类标记它 / 候选集合属性为空
2. 否则,算法调用属性选择方法确定分裂准则
选择能够最好的将样本分类的属性,该属性成为 节点的“测试”或“判定”属性。
3. 对测试属性每个已知的值,创建一个分支,并以 此划分样本
东华大学计算机科学与技术学院 -45
4. 算法使用同样的过程,递归的形成每个划分上的 样本判定树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现
5. 递归划分步骤停止的条件
• 给定节点的所有样本属于同一类
• 没有剩余属性可以用来进一步划分样本
• 没有剩余的样本
分类算法ID3
采用信息增益,熵entropy作为不纯度测量
选择属性的标准:选择具有最高信息增益的属性。该属性使结果分区中对元组分类所需要的信息量最小,反应这些分区中的最小,反映这些分区中的最小随机性或“不纯性”。
三个步骤:
1.原始信息熵
假设有两个类:P 和 N
集合S中含有p个类别为P的样本,n个类别为N的样本
将S中一个已知样本进行分类所需要的期望信息定义为:
2.新的信息熵
假设使用属性A将把集合S划分成 V份 { S 1 , S 2, …, S v }
• 如果S i中包含p i个类别,为P 的样本, n i个类别为N的样本。那么新的信息需求就是:
3.信息增益
信息增益定义为:原有信息需求 – 新的信息需求
实际例子分析
14天的气象数据(指标包括outlook,temperatureÿ