一、C4.5算法的简介
1993年由Quilan提出的C4.5算法(对ID3的改进)
C4.5比ID3的改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)能够完成对连续属性的离散化处理;
3)能够对不完整数据进行处理;
4)在树构造过程中进行剪枝。
C4.5算法优点:产生的分类规则易于理解,准确率较高。
C4.5算法缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
与ID3不同,C4.5采用基于信息增益率(information Gain Ratio)的方法选择测试属性,信息增益率等于信息增益对分割信息量的比值。
GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F)
设样本集S按离散属性F的V个不同的取值划分为,共V个子集
定义分割信息量Split(S, F):