随机森林和Adaboost对比

最新推荐文章于 2024-04-06 16:02:36 发布

wang987158

最新推荐文章于 2024-04-06 16:02:36 发布

阅读量7.6k

点赞数 5

分类专栏：集成学习

本文链接：https://blog.csdn.net/wang987158/article/details/104855936

版权

0 篇文章 0 订阅

订阅专栏

随机森林和adaboost算法都可以用来分类，它们都是优秀的基于决策树的组合算法。相对于经典线性判别分析，其分类效果一般要好很多。

boosting方法

提升学习（Boosting）是一种机器学习技术，可以用于回归和分类的问题，它每一步产生弱预测模型(如决策树)，并加权累加到总模型中；如果每一步的弱预测模型的生成都是依据损失函数的梯度方式的，那么就称为梯度提升(Gradient boosting)；

提升技术的意义：如果一个问题存在弱预测模型，那么可以通过提升技术的办法得到一个强预测模型；

常见的模型有：

Adaboost

Gradient Boosting(GBT/GBDT/GBRT)

随机森林

概念：随机森林利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候决定测试样本的最终类别

在Bagging策略的基础上进行修改后的一种算法

从样本集中用Bootstrap采样选出n个样本；

从所有属性中随机选择K个属性，选择出最佳分割属性作为节点创建决策树；

重复以上两步m次，即建立m棵决策树；

这m个决策树形成随机森林，通过投票表决结果决定数据属于那一类

RF算法在实际应用中具有比较好的特性，应用也比较广泛，主要应用在：分类、

回归、特征转换、异常点检测等。常见的RF变种算法如下：

Extra Tree

Totally Random Trees Embedding(TRTE)

Isolation Forest

RF的主要优点：

RF的主要缺点：

adaboost

基于数据集多重抽样的分类器

 Adaboost 是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）

 Adaboost 算法本身是通过改变数据分布来实现的，它根据每次训练集中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据送给下层分类器进行训练，最后将每次得到的分类器融合起来，作为最后的决策分类器

Adaptive Boosting是一种迭代算法。每轮迭代中会在新训练集上产生一个新的学习器，然后使用该学习器对所有样本进行预测，以评估每个样本的重要性 (Informative)。换句话来讲就是，算法会为每个样本赋予一个权重，每次用训练好的学习器标注/预测各个样本，如果某个样本点被预测的越正确，则将其权重降低；否则提高样本的权重。权重越高的样本在下一个迭代训练中所占的比重就越大，也就是说越难区分的样本在训练过程中会变得越重要；
整个迭代过程直到错误率足够小或者达到一定的迭代次数为止
Adaboost算法将基分类器的线性组合作为强分类器，同时给分类误差率较小的基分类器以更大的权值，给分类误差率较大的基分类器以小的权重值。

“关注”被错分的样本，“器重”性能好的弱分类器实现：