1.ID3算法使用信息增益来判断特征重要性程度,信息增益越大,重要性程度越大,但是其在计算类别数较多的
特征的信息增益时结果往往不准确
2.C4.5算法在衡量特征的重要性程度大小时,在原有的信息增益基础上除以了特征的固有值,特征的固有值与
特征的类别数相关,类别数越大固有值越大,等于是在信息增益的基础上做了一个惩罚,让类别数过多的特征的信息增益不会过大导致的结果不准确;C4.5算法的优缺点
优点:产生的分类规则易于理解,准确率较高。
缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
3.CART算法使用基尼指数衡量特征的重要性程度,基尼指数越小,重要程度越高,集可用来解决分类也可解决回归问题,CART算法效率比较高的另外一个原因是它构建的树都是二叉树,简化了树结构。