集成学习:
使成多个分类器模型,各自独立学习和做出预测;最后结合组合预测。防止过拟合或者欠拟合的问题.
Bagging:
随机采样数据(即样本有放回到原来数据集中)(结合其他强的机器学习模型:线性回归、逻辑回归、决策树等):结果可以提高大概2%,学习是并行执行的。
如果模型很复杂,选择学习Bagging进行集成学习。
API:
随机森林:
由(Bagging+决策树)组成,具有决策树所有的超参数。
Boosting:
用于降低偏差。随着学习的积累从弱到强的过程;将多个弱学习器组合成一个强学习器的集成方法;每个模型之间是互补的。学习顺序是串行;
经典的Boosting方法:
-
AdBoosting
-
Gradient Boosting: 拟合没有拟合好的残差数据
-
GBDT (Gradient Boosting decesion tree)