一、决策树
(一)
(二)
(三)决策树的剪枝
预剪枝:
- 树到达一定深度时,停止生长。
- 当前结点样本数量小于阈值,停止生长。
- 计算每次分裂对测试集的准确度提升,小于阈值,停止生长。
后剪枝:
先生成完全生长的决策树,从最底层开始剪枝,用子结点代替子树
- 错误率降低剪枝(Reduced Error Pruning, REP)
- 悲观剪枝(Pessimistic Error Pruning, PEP)
- 代价复杂度剪枝(Cost Complexity Pruning, CCP)
二、集成学习
三、随机森林
四、GBDT
(一)介绍
根据当前模型损失函数的负梯度信息来训练新加入的弱分类器。
基分类器:CART。
(二)优缺点
优点
- 预测阶段速度快,可并行。
- 稠密数据集上表现很好。
- 决策树为基分类器,解释性和鲁棒性好,可以自动发现特征高阶关系,不需要特殊预处理。