目录
随机森林(Bagging随机取数据+随机取属性+弱分类器为CART树)
集成学习即,利用多个学习器组合得到最后的结果
集成学习两大类
1.Boosting:Adaboost、提升树、梯度提升树 (GBDT)、XGboost
2.Bagging:随机森林
Bagging(随机取数据,分类投票,回归均值)
特点:随机数据,即有放回的随机抽取数据(有重复),不重复的作训练集
优点:解决掉单个随机树的过拟合问题
随机森林(Bagging随机取数据+随机取属性+弱分类器为CART树)
随机森林是在Bagging的基础上再加一个随机,即随机属性。
特征选择:
1.对特征随机增加噪音(即对每个样本在此特征上加减一个随机数),结果变化越大代表越重要
2.给特征重要程度排序。根据比率,删除重要值较小的特征。
3.重复计算一遍,继续筛选特征。
Boosting(学习残差)
用下一个学习器去拟合上一个学习器的残差。残差即实际值与预测值的差。
Boosting:下一个学习器以来上一个学习器的结果;Bagging:学习器与学习器之间独立,可以并发执行。
前向分布算法:利用强学习器+弱学习器构成新的强学习器,不断重复此过程形成最终的学习器。弱学习器学习的是强学习器的残差
提升树
若前向分步算法的弱学习器是CART树,则该集成学习算法成为提升树算法
如图所示,最终的分类器为
梯度提升树GBDT
损失函数对预测值求偏导来模拟残差,提升树中用梯度代替
XGboost、LBGM、Catboosting都是实现GBDT的方法
XGboost:正则(解决过拟合)、并发、二阶泰勒
L1损失1-范数,L2损失2-范数。huber损失:组合使用