Ensemble 集成学习
什么是集成学习思想?
- 将多个分类器的预测结果结合起来
- 用来组合的分类器叫做 基分类器(base classifiers)
- Ensembles通常比组成他的基分类器效果好
- 我们使用投票(少数服从多数)或加权投票来决定最终结果
Example:
训练KNN,朴素贝叶斯,逻辑回归这三种分类器
对一个新样本分类时,结合三个分类器的结果,少
数服从多数
集成学习的错误率:
-
当一个ensemble由25个相同的基分类器组成,那么 他的错误率就等于基分类器的错误率.
-
当一个ensemble由25个不同的基分类器组成,那么 只有当超过半数的基分类器都错误的情况下,他才 会预测错误
让集成学习效果更好:
- 基分类器需要表现良好,即他的错误率低于0.5
- 基分类器之间相互独立
- 不可能保证完全相互独立
- 在基分类器相关性较低的情况下,集成学习就可以获得不错的表现
- 好的ensemble需要多种多样的并且效果良好的基类器组成
如何在基分类器之间产生不一致(独立性):