《机器学习实战》学习笔记第七章-Adaboost

isla77

已于 2022-08-06 15:02:18 修改

阅读量290

点赞数

文章标签：机器学习学习人工智能

于 2022-08-06 14:59:30 首次发布

本文链接：https://blog.csdn.net/isla77/article/details/126174322

版权

本文详细介绍了Adaboost集成学习方法，包括其原理、优缺点及适用场景。通过弱分类器（如单层决策树）的迭代训练，Adaboost构建强分类器。文章讨论了Adaboost与bagging的区别，并展示了如何用Adaboost处理分类问题，强调了对离群点的敏感性。同时，提到了评估分类器性能的混淆矩阵和ROC曲线，以及AUC作为评价指标的重要性。

摘要由CSDN通过智能技术生成

Adaboost简介

集成方法（ensemble method）通过组合多个学习器来完成学习任务。一般采用的是弱可学习分类器，通过集成方法，组合成一个强可学习分类器。集成学习的泛化能力一般比单一的基分类器要好，这是因为大部分基分类器都分类错误的概率远低于单一基分类器的。

集成方法主要包括Bagging和Boosting两种方法，都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法，即将弱分类器组装成强分类器的方法。

自举汇聚法（bootstrap aggregating），也称为bagging方法，是在从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换就意味着可以多次地选择同一样本。这一性质就允许新数据集中可以有重复的值，而原始数据集的某些值在新集合中则不再出现。在S个数据集建好之后，将某个学习算法分别作用于每个数据集就得到了S个分类器。当要对新数据进行分类时，就可以应用这S个分类器进行分类。与此同时，选择分类器投票结果中最多的类别作为最后的分类结果。

boosting（自适应）是一种与bagging很类似的技术。不论是在boosting还是bagging当中，所使用的多个分类器的类型都是一致的。但是在前者当中，不同的分类器是通过串行训练而获得的，每个新分类器都根据已训练出的分类器的性能来进行训练。

boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器。由于boosting分类的结果是基于所有分类器的加权求和结果的，因此boosting与bagging不太一样。bagging中的分类器权重是相等的，而boosting中的分类器权重并不相等，每个权重代表的是其对应分类器在上一轮迭代中的成功度。

区别

	Bagging	Boosting
样本选择上	训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。	每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
样例权重	使用均匀取样，每个样例的权重相等。	根据错误率不断调整样例的权值，错误率越大则权重越大。
预测函数	所有预测函数的权重相等。	每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。
并行计算	各个预测函数可以并行生成。	各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

AdaBoost
优点：泛化错误率低，易编码，可以应用在大部分分类器上，无参数调整。
缺点：对离群点敏感。
适用数据类型：数值型和标称型数据。

一般过程：

1.收集数据

2.准备数据：依赖于所使用的弱分类器类型，本节使用单层决策树，这种分类器可以处理任何数据类型。

3.分析数据：任意方法

4.训练算法：大部分时间用于训练

5.测试算法：计算分类的错误率

6.使用算法：同SVM一样，adaboost预测两个类别中的一个，如果想应用到多个类别，那么就要像多类SVM一样对adaboost进行修改。

AdaBoost 是 adaptive boosting（自适应boosting）的缩写，其运行过程如下：训练数据中的每个样本，并赋予其一个权重，这些权重构成了向量D。一开始，这些权重都初始化成相等值。首先在训练数据上训练出一个弱分类器并计算该分类器的错误率，然后在同一数据集上再次训练弱分类器。在分类器的第二次训练当中，将会重新调整每个样本的权重，其中第一次分对的样本的权重将会降低，而第一次分错的样本的权重将会提高。为了从所有弱分类器中得到最终的分类结果，AdaBoost为每个分类器都分配了一个权重值alpha，这些alpha值是基于每个弱分类器的错误率进行计算的。其中，错误率ε的定义为：