一、决策树
一、回归和分类树
1、id3
2、c4.5
3、cart
二、集成树
1、两种集成方式和优缺点(结合方差和偏差)
介绍:
Bagging多个弱分类器并行,最后通过投票决定结果;
Boosting 每一个弱分类器依赖前一个分类器的结果,所以是串行的,最后相加得到最终的结果。
(每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。)
权重:
- Bagging:使用Bootsting的方式均匀抽样
- Boosting:根据每一轮的训练不断调整权值,分类错误的样本拥有更高的权值。
方差和偏差:
Bagging随机性好,可以有效减少方差;
Boosting每一轮都在降低残差,可以有效减少偏差;
2、对比随机森林和XGBoost
1、集成方式不一样
2、采样方式不一样
3、最终打分方式不一样
3、对比GBDT和XGBoost
1、XGBoost引入了二阶导和代价函数
2、工程上特征和数据做了并行化处理,速度快
4、对此XGBoost和lightGBM
1、直方图算法-特征离散化操作
直方图算法的基本思想是将连续的特征离散化为 k 个离散特征,同时构造一个宽度为 k 的直方图用于统计信息&