决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。分类与回归树CART 模型最早由Breiman 等人提出,也已经在统计领域和数据挖掘技术中普遍使用。本章将对这三种常见的决策树算法进行简单介绍。
八、信息增益选择属性-ID3
S是一个训练样本的集合,该样本中每个集合的类编号已知。每个样本为一个元组,有个属性用来判定某个训练样本的类编号。
假设S中有 m 个类,总共
I(s1,s2,...,sm)=−∑i=1msislog2sis.
一个有 v 个值的属性