1.约束决策树
约束决策树可以根据情况来选择或组合
- (1)设置每个叶子节点的最小样本数,可以避免某个特征类别只适用于极少数的样本。
- (2)设置每个节点的最小样本数,从根节点开始避免过度拟合。
- (3)设置树的最大深度,避免无限往下划分。
- (4)设置叶子节点的最大数量,避免出现无限多次划分类别。
- (5)设置评估分割数据是的最大特征数量,避免每次都考虑所有特征为求“最佳”,而采取随机选择的方式避免过度拟合。
2.剪枝
对每个节点或子树进行裁剪,适用算法评估裁剪前后决策树模型对数据的预测能力是否降低,若没有降低则说明可以剪枝。
- (1)错误率降低剪枝
使用某种顺序遍历节点,删除以此结点为根的子树。试此节点为叶节点。将训练集中该节点调整出现概率最大的那一类赋予此节点,计算整体误判率或准确率,若比剪枝前好,则剪枝。 - (2)悲观剪枝
评估单个节点(非子树)是否裁剪,使用该节点下的所有叶节点的误差值和评估,当裁剪前后的误差率不超过某个标准值,裁剪。 - (3)代价复杂度剪枝
Cart使用代价复杂度剪枝,代价是指样本错分率,复杂度是指树t的叶节点数,定义是如下:
cc(t)=E/N+αLeaft
其中N为决策树训练样本数,E为决策树错分样本数,Leaft为t子树的