机器学习算法（三）：Adaboost算法

最新推荐文章于 2024-05-05 19:16:43 发布

tuqinag

最新推荐文章于 2024-05-05 19:16:43 发布

阅读量1.8k

点赞数

分类专栏：机器学习算法文章标签： adaboost 机器学习数据挖掘提升方法

本文链接：https://blog.csdn.net/tuqinag/article/details/45956381

版权

Boosting算法

集成学习

集成学习的一般结构：先产生一组个体学习器，再使用某种策略将它们结合起来。个体学习器通常由一个现有的算法从训练数据中产生。集成学习既可以包含相同类型的个体学习器，也可以包含不同类型的个体学习器。

集成学习通过将多个学习器进行结合，常可以获得比一般学习器显著优越的泛化性能。这对弱分类器（指泛化性能略优于随机猜测的学习器）尤为明显，因此集成学习的很多理论研究都是针对弱分类器进行的。虽然从理论上来说使用弱分类器集成足以获得好的性能，但在实践中出于种种考虑，人们往往会使用比较强的学习器。

假设基分类器的错误率相互独立，随着集成中基分类器数目的增大，集成的错误率将指数级下降，最终趋向于0。事实上，它们显然不可能相互独立。要获得好的集成效果，个体学习器应『好而不同』，即个体学习器要有一定的准确性，并且要有多样性，即学习器之间要有差异。这两者之间也是存在冲突的。在准确性很高之后，要增加多样性就需要牺牲准确性。事实上，如何产生并结合『好而不同』的个体学习器，恰是集成学习研究的核心。

根据个体学习器的生成方式，目前集成学习方法大致可以分为两大类。个体学习器之间存在强依赖关系，必须串行生成序列化方法。以及个体学习器之间不存在强依赖关系，可同时生成并行化方法。前者的代表是Boosting，后者的代表是Bagging和随机森林算法。关于这两类算法，将使用两篇博客来介绍。

强可学习与弱可学习

强可学习：在概率近似正确学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的。

弱可学习：一个概念，如果存在一个多项式的学习算法能够正确学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的。

后来证明强可学习与弱可学习是等价的。也就是说，在概率近似正确学习的框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习的。

通常发现弱可学习算法通常要比发现强可学习算法容易的多。集成学习就是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些弱分类器，构成一个强分类器。

Boosting算法简介

提升方法基于这样一种思想：对于复杂的任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

它改变训练数据分布的方法是：提高那些前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。对于将一系列弱分类器组合称强分类器的方法是：加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

Adaboost作为提升方法的典型代表，把多个不同的决策树用一种非随机的方式组合起来，表现出惊人的性能。其优点如下：

具有很高的精度；
Adaboost提供的是一种框架，可以使用各种方法来构建子分类器；
当使用简单分类器时，计算出的结果是可以理解的，而且弱分类器的构造特别简单；
简单，不用做特征筛选
不用担心overfitting

算法的具体过程

假设给定一个二分类的训练数据集

T={ $(x_1,y_1),(x_2,y_2),...,(x_N,y_N)$ }

其中，每个样本点由实例与标记组成。算法的具体过程如下：

输入：训练数据集T；弱学习算法

输出：最终分类器 $G(x)$

(1) 初始化训练数据的权值分布

D 1 = (w 11, . . ., w 1 i, . . ., w 1 N), w 1 i = 1 N, i = 1, 2, . . ., N

$D_1=(w_{11},...,w_{1i},...,w_{1N}), w_{1i}= \frac{1}{N},i=1,2,...,N$

(2) 对 $m=1,2,...,M$

(a) 使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器

G m (x

最低0.47元/天解锁文章

tuqinag

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法（三）：Adaboost算法

Boosting算法集成学习集成学习的一般结构：先产生一组个体学习器，再使用某种策略将它们结合起来。个体学习器通常由一个现有的算法从训练数据中产生。集成学习既可以包含相同类型的个体学习器，也可以包含不同类型的个体学习器。集成学习通过将多个学习器进行结合，常可以获得比一般学习器显著优越的泛化性能。这对弱分类器（指泛化性能略优于随机猜测的学习器）尤为明显，因此集成学习的很多理论研究都是针对弱分类器进行的
复制链接

扫一扫

专栏目录