在做重要决定时,大家可能都会考虑吸取多个专家而不是一个人的意见。机器学习也可以采用这种方式,这就是元算法(meta-algorithm)背后的思路。元算法是对其他算法进行组合的一种方式。AdaBoost便是一种最流行的元算法,该方法是机器学习工具箱中最强有力的工具之一。
目录
基于数据多重抽样的分类器
我们可以将不同分类器组合起来,而这种组合结果称为集成方法或者元算法。
使用集成方法时可以有多种形式:
- 不同算法的集成
- 同一算法在不同配置下的集成
- 数据集的不同部分分配给不同分类器之后的集成
AdaBoost
优点:泛化错误率低,易编码,可以应用在大部分分类器上,五参数调整
缺点:对离群点敏感
适用数据类型:数值型和标称型数据
bagging:基于数据随机重抽样的分类器构建方法
自举汇聚法(bootstrap aggregating),也称bagging方法,是在从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过