第七章——决策树(二)
7.3 决策树的过拟合
7.4 对于连续变量和回归的决策树
7.3 决策树的过拟合
1、决策树表现与节点数目的之间的关系
- 防止过拟合的方案:当一个叶节点里包含的所有样本都属于同一个类别、或者特征都一样时可以停止分裂。
- 决策树过拟合:在训练数据上表现的很好,但放到测试数据就表现得很糟糕。
- 减少过拟合现象:决策树越简单、节点越少越好(模型复杂度低)。
2、用于防止过拟合的方案
- 直接减少节点个数在实际操作中不易实现,因为决策树的构建过程是递归的过程。
- 避免决策树过拟合的方法:
(1)设置树的最大深度(maximun depth);
(2)当叶节点里的样本个数少于阈值时停止分裂,不过具体阈值的多少要取决于交叉验证的结果;