决策树剪枝
决策树为了防止过拟合,会采用剪枝的方式,符合奥卡姆剃刀原理。决策树剪枝分为预剪枝(pre-pruning)和后剪枝(post-pruning)。
预剪枝
预剪枝是在决策树生成时限制树的生长,防止树过度生长而导致过拟合。常用方法有:限制树的高度、限制树的叶子结点数、设置分裂时增益的阈值(低于阈值就不继续分裂)。
后剪枝
相比预剪枝,后剪枝使用更广泛。主要有:
- REP (Reduce-Error Pruning): 降低错误率剪枝
- PEP (Pessimistic-Error Pruning): 悲观剪枝
- CCP (Cost-Complexity Pruning): 代价复杂度剪枝
- EBP (Error-Based Pruning): 基于错误的剪枝