这几个名词经常混淆,在调查了百度,wiki和一些网友的分享,特整理如下:
Boosting算法:
弱分类器:分类效果差,只是比随机猜测好一点。
强分类器:具有较高的识别率,较好的分类效果。(在百度百科中有提到要能在多项式时间内完成学习)
弱和强更大意义上是相对而言的,并没有严格的限定。比如准确率低于多少就是弱分类器,高于多少是强分类器,因具体问题而定。
1988年,有学者提出是否可以通过一些弱分类器来实现强分类器的分类效果。基于这个问题,之后两三年陆续的有早期的boosting算法被提出。Boosting系列算法,对于任意给定的弱分类器算法,都可以提升其分类效果。Boosting系列算法属于一个算法框架,与具体基分类器的学习方法独立。它会产生一系列的分类器(预测函数,基分类器),然后对所有分类器的结果进行加权融合。虽然单个基分类器的效果不好,但是经过多个基分类器的结果融合,可以获得更高的准确率。
主体思想:强分类器算法比较难以获得,而弱分类器较易获得。我们希望基于易得到的弱分类器,达到强分类器的识别效果。
boosting算法特点:
1. Boosting算法会对训练集进行操作以挑选训练子集训练基分类器,也就是说基分类器的训练集并不相同。
2. Boosting算法是对多个基分类器进行加权融合得到最终分类结果。准确率一般远高于单个的基分类器效果