ID3
1.主体思想是奥卡姆剃刀(小成本办大事)。用信息增益(relative entropy)来度量信
息选择,对信息增益大的特征进行分裂。
2.大致步骤:
初始化特征集合和数据集合
计算数据集合信息熵(离散随机事件的出现概率)和所有特征的条件熵(在给定 X 的条件下 Y 的不确定性)
选择信息增益最大的特征作为决策节点
删除上一步使用的特征,按照特征值来划分不同分支的数据集合
重复以上操作
3.缺点
没有修枝策略,容易过拟合(overfitting)
信息增益对特征值数目多的有偏好,信息增益接近于1
只能用于处理离散分布的特征
没有考虑缺失值
C4.5
1.主题思想引入信息增益率,将连续特征离散化。
对于特征值缺失的情况,用没有缺失的样本子集所占比重来折算信
息增益率。将样本以不同概率划分到不同节点中。
2.大致步骤:
从候选特征中找到信息增益高于平均值的特征,从中选择增益率最
高的。
3.缺点
剪枝策略可继续优化
C4.5使用多叉树,用二叉树效率更高
C4.5只能用于分类(clustering)
C4.5在log2的运算太耗时,连续值还需要进行排序运算
只适用于能够驻留于内存的数据集,当训练集太大时,程序无法运
行
CART(Classification And Regression Tree)
1.主要思想 分裂 剪枝 树选择
2.大致步骤:
分裂——进行二叉递归划分
剪枝——从最大树开始,每次剪去训练数据熵对整体性能贡献最小
的分裂节点,直到只剩下根节点
树选择——用测试集评估每颗剪枝树的预测性能
ID3、C4.5和CART三者的差异
划分特征:
ID3的核心是信息增益,偏好特征值多的特征
C4.5使用信息增益率克服ID3中信息增益的缺点,偏好特征值小的
特征
CART使用基尼系数解决了C4.5公式中log计算量大的问题,偏好特
征值较多的特征
应用方面:
ID3和C4.5都只能用于分类(clustering)问题,CART可以用于分
类(clustering)和回归(regression)问题
样本数据使用:
ID3和C4.5都只能使用一次特征值,而CART可以多次重复使用特征
剪枝策略
预剪枝
通过在节点划分之前确定是否继续增长
判断方法:
节点内数据样本低于某一阈值
所有节点特征都已经分裂
划分节点前准确率较低
目的
降低过拟合的风险,还可以减少训练时间。
缺点
基于贪心算法(不从整体最优上考虑,而是在某种意义上的局部最
优解),会带来欠拟合(数据离拟合曲线远,表现在模型在训练集
表现差,在测试集表现同样差)风险。
后剪枝
通过在已经生成的决策树上进行剪枝,进而得到简化版的决策树
实现方法
用递归的方式从低到高对每一个非叶子节点进行评估。如果剪枝过
后错误率是持平或者下降,这颗子树就可以被替换掉
优点大
欠拟合风险小,泛化能力一般胜过预剪枝
缺点
训练时间太多