文章属于原创,转发或引用请必注明出处。@all
一:集成学习与分类器不得不说的那点儿事儿
研究或学习集成学习的朋友都知道,集成学习是对原始样本集进行重采样,然后得到若干数据集,每一个数据集单独训练一个基础分类器,然后对于测试或未知数据进行预测,每一个分类器都得到一个预测结果,然后使用集成方法对得到的若干个结果进行融合决策(比如多数表决等等)得到最终结果。以此来提高单一分类器的准确率。
然而,集成学习对于分类器有着要求:集成学习所集成的分类器必须是弱分类器,且比如Bagging,AdaBoost所集成的都是弱分类器。
注意:不论Bagging,AdaBoost集成的弱分类器都是同一种分类器。比如集成的都是KNN;随机森林集成的都是决策树。
二:分类器的强弱之分
分类器的强弱不以准确率为标准,准确率高不代表该分类器为强分类器。
分类器的强弱之分以分类器的稳定性为评估标准,分类器稳定性越强,分类器越强;分类器越不稳定,分类器越弱。
那么何谓分类器的稳定性呢?
分类器的稳定性指在输入数据发生变化时,分类器预测结果的稳定性。举个例子,对于一个样本集,随机划分为训练集和测试集。在第一次训练模型预测准确率为56%,而第二次训练模型预测准确率则是78%,那么可以说这个模型是不稳定的,该分类器是不稳定分类器,由此属于弱分类器。因此可以得出结论:分类器的不稳定性来自于数据的不确定性和分类器本身对数据的自适应度。
在第一节中我们看到,集成学习需要对数据进行随机重采样,这个过程是随机不放回的,因此产生的若干样本集可能有交叉,也可能不重复,因此产生的样本集是不确定的,这样的样本集对于弱分类器来说预测准确率可能是不稳定的,但是由于通过对其进行集成,在大多数预测值为同一类时,确定最终结果为该类。由此大大提高了弱分类器的稳定性,从而得到一个强分类器,同时提高预测准确率。