C4.5分类决策算法是对核心算法ID3的改进,体现在以下几个方面:(1)使用信息增益率来选择属性,克服了使用信息增益来选择属性时偏向选择取值多的属性的不足;(2)在树的构造过程中进行剪枝;(3)可以完善对连续属性的离散化处理;(4)可以对不完整数据进行处理。
优点:产生的分类规则易于理解,准确率较高。
缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法低效。
适用:仅仅适用于可以驻留于内存的数据集。当训练集大的无法在内存容纳时程序无法执行。
C4.5对ID3算法的改进:
1、 熵的改进,加上了子树的信息. 适用信息增益率作为启发式标准。
2、 在输入数据上的改进.
1) 属性的值能够是连续量,C4.5 对其排序并分成不同的集合后依照ID3 算法当作离散量进行处理,但结论属性的值必须是离散值.
2) 训练集的属性值能够是不确定的,以 ? 表示,但结论必须是确定的
3)对已生成的决策树进行裁剪,减小生成树的规模.