本章内容
- 组合相似的分类器来提高分类性能
- 应用AdaBoost算法
- 处理非均衡分类算法
所有分类器都会遇到一个问题:非均衡分类问题。
将不同分类器组合起来的结果被称为集成方法或者元算法。
AdaBoost
优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整.
缺点:对离群点敏感
适用数据类型:数值型和标称型数据
AdaBoost是基于错误提升分类器性能的算法
单层决策树构建伪代码如下:
将最小错误率minError设为+∞
对数据集中的每一个特征(第一层循环):
对每个步长(第二层循环):
对每个不等号(第三层循环):
建立一颗单层决策树并利用加权数据集对它进行测试
如果错误率低于minError,则将当前单层决策树设为最佳单层决策树
返回最佳单层决策树
完整AdaBoost算法实现的伪代码:
对每次迭代:
利用buildStump()函数找到最佳的单层决策树
将最佳单层决策树加入到单层决策树数组
计算alpha值
计算新的权重向量D
更新累计类别估计值
如果错误率等于0.0,则退出循环