前面小编和大家一起学习了若干分类器,一般情况下,我们在训练集上构建单个分类器解决问题。而对于集成学习算法,可以组合若干个基分类器,从而提升分类器的预测性能。通俗说,就是三个臭皮匠赛过诸葛亮。
如果基分类器的数量趋于无穷多,那么集成分类器的错误率是否会等于0呢?
不会,因为集成分类器错误率趋于0需要达到以下条件:
(1)基分类器的错误率要低于0.5%;
(2)基分类器之间相互独立。
一般的,我们是基于同一数据集进行分类器的训练,很难满足分类器间相互独立的条件。在实际中,只能尽量保证分类器之间不存在强相关的情况。当所有基分类器完全相关时,组合分类器的性能不会有任何改善。
同质集成:指所有基分类器都是由同一种算法所产生的。
同质集成学习方法:Bagging,Boosting,随机森林。
一、Bagging
Boostrap AGGregatING,也称为袋装法,是最为经典的并行集成算法。
1.1 过程:对原始训练数据集进行有放回的重复抽样达到目的。
<