Boosting集成学习方法-----机器学习

最新推荐文章于 2024-06-29 18:46:39 发布

Lavender-csdn

最新推荐文章于 2024-06-29 18:46:39 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/kidchildcsdn/article/details/104819081

版权

本文介绍了Boosting集成学习方法，特别是AdaBoost算法的工作机制。AdaBoost通过不断调整样本权重，训练一系列基学习器，最终形成加权组合的分类器。文章通过一个回归任务的例子，详细阐述了AdaBoost的训练过程，包括权重初始化、误差率计算、系数计算和权重更新等步骤。

摘要由CSDN通过智能技术生成

Boosting

之前的博文中我们提到过Boosting集成学习方法是个体学习器串行的序列化方法，这种方式中个体学习器存在强依赖的关系。

该方法的工作机制：我们先从初始的训练集中训练出一个基学习器，然后根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此反复进行，直至基学习器数目达到了事先指定的值T，最后将这T个基学习器进行加权结合。我们看一个例子，加深我们对这种方式的理解。

如图所示，我们使用回归任务作为一个例子，在最开始，我们的样本分布权重都是一样的，也就是说受到的关注是一样的，在第一幅图中，我们训练了一个学习器来拟合我们的样本，然后计算误差，发现有些样本也不是完全适应我们训练出来的这个学习器，然后我们就对这些样本加以更大的关注，也就是分配更大的权重给这些样本，然后我们训练第二个学习器再来拟合这些样本，同样计算误差，也发现有些样本不完全适应我们这个学习器，然后再对这些样本赋予更大的权重，训练第三个学习器知道个体学习器的数量达到了T，否则就一直循环上述的过程，这个例子应该加深了我们对Boosting的理解，也能够知道为什么这是串行的方式，因为个体学习器之间有着很强的依赖关系，我们只有训练了前一个学习器，对样本的权重进行调整之后，才能训练下一个分类器。

Boosting族算法中最著名的代表是AdaBoost，比较容易理解的是基于“加性模型”，即基学习器的线性组合：