决策树避免过拟合的方法以及优缺点_决策树对过拟合的主要手段是什么?该手段的优缺点是什么?-CSDN博客

本文链接：https://blog.csdn.net/qq_33700236/article/details/106575907

本文探讨了避免决策树过拟合的方法，包括设置约束如最小样本数、最大深度和特征数量，以及剪枝策略如错误率降低剪枝、悲观剪枝和代价复杂度剪枝。同时，介绍了决策树的优劣，如简单易懂、适应性强，但易过拟合、稳定性差，对连续数据和预处理需求较高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

约束决策树可以根据情况来选择或组合

对每个节点或子树进行裁剪，适用算法评估裁剪前后决策树模型对数据的预测能力是否降低，若没有降低则说明可以剪枝。

（1）错误率降低剪枝
使用某种顺序遍历节点，删除以此结点为根的子树。试此节点为叶节点。将训练集中该节点调整出现概率最大的那一类赋予此节点，计算整体误判率或准确率，若比剪枝前好，则剪枝。
（2）悲观剪枝
评估单个节点（非子树）是否裁剪，使用该节点下的所有叶节点的误差值和评估，当裁剪前后的误差率不超过某个标准值，裁剪。
（3）代价复杂度剪枝
Cart使用代价复杂度剪枝，代价是指样本错分率，复杂度是指树t的叶节点数，定义是如下：
cc（t）=E/N+αLeaft
其中N为决策树训练样本数，E为决策树错分样本数，Leaft为t子树的叶子数，参数α用来衡量代价与复杂度关系，表示减值后树的复杂度降低的程度与代价间的关系。对于t子树，剪去其子树s，用t中最优叶节点代替，得到新树new_t。New_t会比t对于训练数据分错M个，但是new_t包含的叶节点数比t少Leaf_s-1个。领替换之后代价复杂度相等：
cc(t)=cc(new_t)=>E/N+αLeaft=(E+M)/N+α[leaft-(leafs-1)]=>α=M/N(leafs-1)。
M为用叶节点替换t的s子树后，增加的分错样本数，leafs是子树s的叶节点数。

剪枝步骤：

N’为剪枝集的大小，Ei为树Ti对剪枝集的错分数，E’=min{Ei}
最佳剪枝树为Tbest是满足如下条件且包含节点数最少的那颗剪枝树：Ei<=E’+SE(E’)

优势：简单易懂，可处理数值和类别两种类型的数据，只需要少量的训练集即可使用，使用白盒模型，可清洗观察每个步骤，对大数据量的处理性能较好，更贴近人类思维。
劣势：准确性不如其他算法，对连续性字段难预测，特别是时间顺序的数据，需要较多预处理工作，树的稳定性不足，训练集的小变化可能引起整个树的巨变，容易过拟合，决策树处理包含不同数值类别的特征数据时，容易倾向选择取值更多的特征作为分割节点，对字段特立化严重的数据更容易出现过拟合且类别越多错误或增加更加快。