集成算法的介绍

最新推荐文章于 2024-04-25 23:12:42 发布

LTC_1234

最新推荐文章于 2024-04-25 23:12:42 发布

阅读量2.6k

点赞数 1

分类专栏： ML

本文链接：https://blog.csdn.net/LTC_1234/article/details/107529685

版权

ML 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

文章目录

集成算法概念
Bagging
- 随机森林介绍
Boosting
Stacking

集成算法概念

集成学习算法本身不算一种单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。可以说是集百家之所长，能在机器学习算法中拥有较高的准确率，不足之处就是模型的训练过程可能比较复杂，效率不是很高。
常见的集成算法模型有：Bagging、Boosting、Stacking

Bagging

Bagging的全称是bootstrap averaging，它把各个基模型的结果组织起来，基本思想是训练多个分类器，各个分类器之间不存在强依赖关系，然后把计算结果求平局值：f(x)=1/M∑mm=1fm(x)

f(x)=1/M∑m=1mfm(x)。

fm(x)

fm(x)代表第m个分类器。
整个公式的含义就是各个分类器平局值。

随机森林是这一模型的典型代表。

随机森林介绍

1 随机森林概念

随机森林由LeoBreiman（2001）提出，从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合，然后根据自助样本集生成k个分类树组成随机森林，新数据的分类结果按分类树投票多少形成的分数而定。
其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖于一个独立抽取的样品，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它们之间的相关性。
特征选择采用随机的方法去分裂每一个节点，然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。单棵树的分类能力可能很小，但在随机产生大量的决策树后，一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。

在这里插入图片描述

2 随机森林算法过程
(1) 选取n个数据作为训练数据输入
从训练数据中选取n个数据作为训练数据输入，一般情况下n是远小于整体的训练数据N的，这样就会造成有一部分数据是无法被取到的，这部分数据称为袋外数据，可以使用袋外数据做误差估计。
(2) 构建决策树
选取了输入的训练数据的之后，需要构建决策树，具体方法是每一个分裂结点从整体的特征集M中选取m个特征构建，一般情况下m远小于M。
(3) 分裂节点的选取
在构造每棵决策树的过程中，按照选取最小的基尼指数进行分裂节点的选取进行决策树的构建。决策树的其他结点都采取相同的分裂规则进行构建，直到该节点的所有训练样例都属于同一类或者达到树的最大深度。
(14) 得到随机森林
重复第2步和第3步多次，每一次输入数据对应一颗决策树，这样就得到了随机森林，可以用来对预测数据进行决策。
(5) 进行预测
输入的训练数据选择好了，多棵决策树也构建好了，对待预测数据进行预测，比如说输入一个待预测数据，然后多棵决策树同时进行决策，最后采用多数投票的方式进行类别的决策。
3 随机森林优缺点
优点
处理高纬度数据，且不用选定特征：因为特征是随机选择的。
计算完成后，可以给出特征的重要程度。
可以做出并行方法，运算速度快。
可以进行可视化展示，便于分析。

缺点
决回归问题时，不能给出连续的输出，造成效果可能不好。
计算过程是个黑盒子，只能调整参数来改变结果，可解释性差。

Boosting

Boosting不断的建立新模型，而新模型更重视上一个模型中被错误分类的样本，最终根据按成功度加权组合得到结果。
由于引入了逐步改进的思想，重要属性会被加权，这也符合人的直觉。一般来说，它的效果会比Bagging好一些。由于新模型是在旧模型的基本上建立的，因此不能使用并行方法训练，并且由于对错误样本的关注，也可能造成过拟合。常见的Boosting算法有AdaBoost,GBDT,XGBoost

AdaBoost

AdaBoost自适应提升算法，AdaBoost是最著名的Boosting族算法。开始时，所有样本的权重相同，训练得到第一个基分类器。从第二轮开始，每轮开始前都先根据上一轮基分类器的分类效果调整每个样本的权重，上一轮分错的样本权重提高，分对的样本权重降低。之后根据新得到样本的权重指导本轮中的基分类器训练，即在考虑样本不同权重的情况下得到本轮错误率最低的基分类器。重复以上步骤直至训练到约定的轮数结束，每一轮训练得到一个基分类器。

可以想象到，远离边界（超平面）的样本点总是分类正确，而分类边界附近的样本点总是有大概率被弱分类器（基分类器）分错，所以权值会变高，即边界附近的样本点会在分类时得到更多的重视。

GBDT

GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树，提升方法依然采用的是加法模型与前向分布算法。以决策树为基函数的提升方法称为提升树。对分类问题决策树是二叉分类树，对回归问题决策树是二叉决策树。例如前文中的例子中所使用的决策树桩即为一个根节点直接连接两个叶节点的简单决策树。
GBDT与Adboost最主要的区别在于两者如何识别模型的问题。Adaboost用错分数据点来识别问题，通过调整错分数据点的权重来改进模型。GBDT通过负梯度来识别问题，通过计算负梯度来改进模型

Xgboost

XGBoost是Exterme Gradient Boosting（极限梯度提升）的缩写，它是基于决策树的集成机器学习算法，它以梯度提升（Gradient Boost）为框架。XGBoost是由由GBDT发展而来，同样是利用加法模型与前向分步算法实现学习的优化过程，但与GBDT是有区别的。主要区别包括以下几点：
目标函数：XGBoost的损失函数添加了正则化项，使用正则用以控制模型的复杂度，正则项里包含了树的叶子节点个数、每个叶子节点权重（叶结点的socre值）的平方和。优化方法：GBDT在优化时只使用了一阶导数信息，XGBoost在优化时使用了一、二介导数信息。缺失值处理：XBGoost对缺失值进行了处理，通过学习模型自动选择最优的缺失值默认切分方向。防止过拟合: XGBoost除了增加了正则项来防止过拟合,还支持行列采样的方式来防止过拟合。结果：它可以在最短时间内用更少的计算资源得到更好的结果。

XGBoost被大量运用于竞赛中，比如Kaggle竞赛，在Kaggle2015年公布的29个获胜者中有17个使用了XGBoost，同样在KDDCup2015的竞赛中XGBoost也被大量使用。

Stacking

该算法的基本思想是：把样本分成n份，使用n个分类器对样本进行计算；计算的结果作为下一层分类器的输入；不断迭代，直到达到迭代的次数限制为止

LTC_1234

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
集成算法的介绍

文章目录集成算法概念Bagging随机森林介绍BoostingStacking集成算法概念集成学习算法本身不算一种单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。可以说是集百家之所长，能在机器学习算法中拥有较高的准确率，不足之处就是模型的训练过程可能比较复杂，效率不是很高。常见的集成算法模型有：Bagging、Boosting、StackingBaggingBagging的全称是bootstrap averaging，它把各个基模型的结果组织起来，基本思想是训练多个分类器，各个
复制链接

扫一扫