优点
- 便于可视化展示
特征选择
- 选择依据:熵值大小的减少程度
- 熵的解释
- 信息增益:熵值大小的减少程度
选择算法
- ID3算法: 循环遍历每一个特征确认后的信息增益,然后选出增益最大的
- 缺点是id这种特征无法处理
- C4.5 信息增益率:处理id这种特征,采用的方法是=信息增益/自身的熵值
- 因为id这种特征自身的熵值是非常大的
- CART:采用GINI系数
如果特征不是离散值而是连续值,可以采用二分法,人为分开
剪枝策略
- 当特征过多,防止过拟合的问题,可以去掉一些多余的特征
- 分为两种方式
- 预剪枝:边建立决策树边进行剪枝的操作(更实用)
- 方法::限制深度,叶子节点个数 叶子节点样本数,信息增益量等
- 后剪枝:当建立完决策树后来进行剪枝操作
- 预剪枝:边建立决策树边进行剪枝的操作(更实用)