Bagging_AdaBoost提升方法

最新推荐文章于 2024-05-14 09:21:42 发布

Schnappi_z

最新推荐文章于 2024-05-14 09:21:42 发布

阅读量432

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43395639/article/details/104514589

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

提升算法的基本思路

在概率近似正确的学习框架中

一个对象，如果存在一个多项式学习算法能够学习，且准确率很高，那么它是强可学习的。
如果是准确率比随即猜测略好，那么它是弱可学习的。
一个对象是强可学习的充要条件是该对象是弱可学习的。

弱可学习算法通常比强可学习的算法容易获得。所以提升方法就是从弱学习算法出发，得道许多弱分类器，组合弱分类器，形成一个强分类器。（三个臭皮匠顶个诸葛亮。）

Bagging

Bagging也叫自举汇聚法（bootstrap aggregating），是一种在原始数据集上通过有放回抽样重新选出k个新数据集来训练分类器的集成技术。它使用训练出来的分类器的集合来对新样本进行分类，然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果，结果最高的类别即为最终标签。此类算法可以有效降低bias，并能够降低variance。

比如，可以从原数据集中每轮有放回的抽取70%的数据，抽取k轮，分别训练出k个不同的分类器（如果是相同的模型，差别就在参数不同），将测试集数据分别用k个模型进行预测。

分类问题，则用k个若分类器进行投票，票数多的作为预测结果。
回归问题，则用预测值的均值作为最后结果。

在这里插入图片描述

随机森林 Random Forest

随机森林(Random Forest，RF）是使用CART作为弱学习器的bagging方法。

随机森林的随机体现在两个方面
- 若分类器训练数据随机，这是根据bagging的有放回取样决定的
- 每次随机选择m个特征，m<=M，M原数据所有特征。

之后就是对采样之后的数据使用完全分裂的方式建立出决策树，一般很多的决策树算法都一个重要的步骤——剪枝，但是RF不这样干，由于之前的两个随机采样的过程保证了随机性，所以就算不剪枝，也不会出现over-fitting。

随机森林的优点：

两个随机性的引入，使得随机森林不容易陷入过拟合，且具有很好的抗噪声能力
它能够处理很高维度（feature很多）的数据，并且不用做特征选择，
对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化
可生成一个Proximities =（pij）矩阵，用于度量样本之间的相似性： pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数，N随机森林中树的颗数。
训练速度快，可以得到变量重要性排序（两种：基于OOB误分率的增加量和基于分裂时的GINI下降量）
【OOB】在Bagging的每轮随机采样中，训练集中大约有36.8%的数据没有被采样。对于这部分没采集到的数据，我们常常称之为袋外数据(Out Of Bag，简称OOB)。这些数据没有参与训练集模型的拟合，因此可以用来检测模型的泛化能力。
容易做成并行化方法，实现比较简单