为什么要集成算法?
模型的评判标准:min 偏差+方差;
对不同的算法模型,可以通过调优过程使训练集数据对该模型做到“最佳”;然而大部分模型自身存在着问题使偏差或者方差天生偏高,如决策树易过拟合则方差较高;朴素贝叶斯模型简单,偏差较高;因此需要利用一些策略来弥补天生的缺失。
集成学习:将若干弱分类器组合之后产生一个强分类器。弱分类器(weak learner)指那些分类准确率只稍好于随机猜测的分类器(error rate < 50%)。如今集成学习有两个流派,一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合,随机森林算法就属于bagging派系;另一个是boosting派系,它的特点是各个弱学习器之间有依赖关系,Adaboost算法就属于boosting派系。在实现集成学习算法时,很重要的一个核心就是如何实现数据的多样性,从而实现弱分类器的多样性。集成学习的思想如下图所示:
2.4集成算法
最新推荐文章于 2021-01-14 16:14:54 发布