集成学习

最新推荐文章于 2023-02-26 14:57:23 发布

SpartanBin

最新推荐文章于 2023-02-26 14:57:23 发布

阅读量152

点赞数

分类专栏：机器学习文章标签：集成学习

本文链接：https://blog.csdn.net/weixin_42095259/article/details/94651172

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

投票分类器：

训练多个分类器，如：逻辑回归、支持向量、决策树、最邻近等，进行分类时几个分类器投票，得票最多的类为最终输出（这种方法被称为硬投票方式）。如果以上几个分类器都能输出概率，则可以将他们的结果进行概率平均（这种方法被称为软投票方式），这样效果会略好于直接投票。

bagging和pasting：

bagging（自举汇聚法）是bootstrap aggregating的缩写，是一种有放回式随机采样方法，它也可以对特征进行随机采样（对训练样本和特征都进行随机采样被称为Random Patches，随即森林就是这样的）。pasting就是无放回式随机采样，其他与bagging无差别。

因bagging中每个分类器都有一部分样本没用到，所以可以把这部分样本作为测试集，不需要额外准备测试集了，非常方便，这叫“外包评估”。

随机森林：

随机森林就是bagging版（当然也有pasting版的）的决策树，它每棵树都是使用的随机训练样本和特征，阈值常设置为63%。

极端随机树：

极端随机树是更特殊的随机森林，首先它没有bagging的过程，它每棵树都是用的全部的训练样本和特征，但它的每棵决策树在进行分叉时，都是选的随机的特征，并选择随机的分叉阈值，它的训练速度比随机森林快得多，有的时候泛化能力更强。

决策树和随机森林都可以用来评估特征对模型的重要性，因为重要的特征往往会被先用来分叉（重要特征靠近根节点，而垃圾特征靠近叶节点，甚至都不会被用到），通常在训练完模型后，我们就可以以此评估特征重要性了，通常是用的百分数占比表示重要性，所有特征的重要性之和为1。

提升法：

AdaBoost（算法很简单，但是书上的描述有待验证，之后补充）：

倾向将多个弱分类器串行组合为强分类器，第一个分类器训练完后，对训练集进行分类，将错分的点权重增大，再把修改完权重的原样本集用第二个分类器进行训练，以此类推，在训练完模型后进行预测时，也要给每个串行的分类器以权重，最后加权得到分类结果，同样也分为硬投票和软投票。

Gradient Boosting（梯度提升法）：

也是串行弱分类器，以梯度提升回归树（这是做回归的）为例（不知道用于分类任务的是什么样子），他将上一个模型的残差（就是把原本的y换成该模型的残差）与训练样本结合拿给下一个模型训练。该方法与梯度下降法有点像，应注应用早期停止法打断，即每训练好一个模型（每增加一个模型，比如从100个串行模型变为101个的时候）就拿去测试一次，在过拟合（虽然在训练集上代价函数还在变小，但在测试集上代价函数开始增大，或是没有明显变化了）开始、或精度已不会明显上升的时候就终止训练。

bagging系列方法实际上是在牺牲偏差减小方差，bagging实际上是把强分类器（易过拟合的分类器）削弱的集成方法；而提升法系列实际上是增强弱分类器（易欠拟合）的方法。bagging常用于决策树系列和神经网络系列，因是一种并行的方法，得到广泛的应用；提升法因必须是串行结果，所以可能凉凉？

SpartanBin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习

投票分类器：训练多个分类器，如：逻辑回归、支持向量、决策树、最邻近等，进行分类时几个分类器投票，得票最多的类为最终输出（这种方法被称为硬投票方式）。如果以上几个分类器都能输出概率，则可以将他们的结果进行概率平均（这种方法被称为软投票方式），这样效果会略好于直接投票。bagging和pasting：bagging（自举汇聚法）是bootstrap aggregating的缩写，是一种有放...
复制链接

扫一扫