1.概念定义
(1)元算法(meta-algorithm)/集成方法(ensemble method): 是对其他算法进行组合的一种方式.有多种集成方式:
- 不同算法的集成;
- 同一算法在不同设置下的集成
- 数据集不同部分分配给不同分类器之后的集成
(2)单层决策树(decision stump ): 是一个只有一个节点的决策树;仅仅基于单个特征来做决策.只有一个分裂过程.例如大于5的为类型1,小于5的类型为-1;
2. 几种集成算法
(1)bagging,自举汇聚法(bootstrap aggregating):
- 是从原始数据集中选择s次得到s个新数据集的一种方法,新数据集和原始数据集大小一样,每个数据集都是通过在原始数据集中随机选择一个样本组合而成的,这属于有放回的采样,这一特点使得原始数据集中可以有重复的值,且原始数据集中的有些值在新数据集中不出现.
- 得到s个数据集之后,使用某个学习算法(例如决策树等等)分别作用于每个数据集得到s个分类器.
- 当进行分类时,应用这s个分类器分别对新数据进行分类,选择分类器分类结果中最多的类别作为最后的分类结果.
(2)boosting
- 不同的分类器是通过串行训练得到的,而bagging是并行的,不同分类器是相互独立的;每个新分类器都根据已训练出的分类器的性能来进行训练.boosting通过关注被已有分类器错分类的那些数据来获得新的分类器.
- boosting的分类结果是基于所有分类器的加权求和结果的,bagging中分类器权重都是一样的,boosting中的分类器权重不相等,每个权重代表其对应分类器在上一轮迭代中的正确分类率.
3.adaboost(adaptive boosting)
(1)一般流程
- 准备数据:依赖于选择的弱分类器,本次将选择单层决策树,这种分类器可以处理任何数据类型;作为弱分类器,简单分类器的效果更好.