文章目录
第五章:决策树
ID3 | C4.5 | CART | |
---|---|---|---|
思想 | 选择信息增益最大的特征作为当前决策节点 | 最大的特点是克服了 ID3 对特征数目的偏重这一缺点,引入信息增益率来作为分类标准。 | 分裂、剪枝、树选择 |
划分标准 | 信息增益=信息熵-条件熵,越大越好 | 信息增益率+启发式算法(先从候选划分特征中找到信息增益高于平均值的特征,再从中选择增益率最高的) | 基尼系数,减少对数运算,越小越好;均方差,划分连续值属性 |
剪枝策略 | 不支持 | 采用后剪枝:用递归的方式从低往上针对每一个非叶子节点,评估用一个最佳叶子节点去代替这课子树是否有益 | 基于代价复杂度的剪枝 |
缺失值处理 | 不支持 | 【特征选择】对于具有缺失值特征,用没有缺失的样本子集所占比重来折算;【样本划分】将样本同时划分到所有子节点,不过要调整样本的权重值,其实也就是以不同概率划分到不同节点中 | 【特征选择】用了一种惩罚机制来抑制提升值,从而反映出缺失值的影响【样本划分】使用代理分裂器,代理就是代替缺失值特征作为划分特征的特征 |
连续值处理 | 不支持 | 支持 | 对应的任意划分点 s 两边划分成的数据集,求出使各自集合的均方差最小,同时两个集合的均方差之和最小所对应的特征和特征值划分点 |
类别不平衡 | 不支持,单纯使用父类/子类该属性内样本数最大的类别做判断 | 同ID3 | 使用了一种先验机制,其作用相当于对类别进行加权后划分,考虑子类在父类中的占比而非绝对数量 |
缺点 | ID3 没有剪枝策略,容易过拟合;信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;只能用于处理离散分布的特征;没有考虑缺失值。 | 剪枝策略可以再优化;C4.5 用的是多叉树,用二叉树效率更高;C4.5 只能用于分类;C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。 | 单变量决策(多变量决策树有OC1),容易受样本变化扰动(用随机森林) |
参考文献:
比较三种决策树:https://zhuanlan.zhihu.com/p/85731206
CART对比理解:https://blog.csdn.net/xiongchengluo1129/article/details/78485306