1.概述
当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习也是。这就是元算法(meta algorithm)背后的思路。元算法是对其他算法进行组合的一种方式。AdaBoost是目前最流行的元算法。
单层决策树(decision stump)分类器之上,应用AdaBoost分类器。
2.基于数据集多重抽样的分类器
前面介绍的五种不同的分类算法各有优缺点,将不同的分类器组合起来,这种结果称为集成方法或者元算法。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。
adaboost:
优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。
缺点:对离群点敏感。
适用数据类型:数值型和标称型数据。
3.bagging:基于数据随机重抽样的分类器构建方法
自举汇聚法(bootstrap aggregating),也称bagging方法,是在原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换就意味着可以