(1)决策树:
决策树是以一种分类(ID3, C4.5,CART)和回归(CART)的方法。在分类的问题上表示基于特征对实例进行分类的过程。
(2)ID3:
ID3是以信息增益准则选择特征,递归的构建决策树。但是这有一个问题就是这样的话会偏向特征值取值比较多的属性,例如当把分类每一条记录的序号也作为特征是,这时它得到的信息增益最大,但是让它作为分裂规则是不准确的。
(3)C4.5:
为了避免ID3偏向属性值多的特征,C4.5提出使用增益率作为属性选择的特征,除以一个属性的固有值实现。
(4)ID3 和 C4.5 的比较:
1)C4.5能解决属性偏向特征值多的问题。
2)C4.5 可以处理连续值(有待探讨)。