监督学习——集成方法

最新推荐文章于 2024-08-29 11:34:11 发布

laboirousbee

最新推荐文章于 2024-08-29 11:34:11 发布

阅读量378

点赞数

分类专栏：监督学习

本文链接：https://blog.csdn.net/laboirousbee/article/details/89020133

版权

监督学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Bagging

自助聚集（bootstrap aggregation ）。将数据分成很多的子集，然后随机选取一些，用简单的模型去训练，再选择一些数据用另外一个简单的模型去训练……最后将所有的简单模型连接起来，连接的方式可以用投票的方式等，最后完成所有数据的训练。

AdaBoost

自适应增强算法。第一次分类，分完之后惩罚那些错误的点，然后增加被惩罚点的大小，

数据权重

小例子：最开始左右点的权重是1，第一次分类，分类正确的点总权重是7，错误的是3，按照50:50的比例，将错误的点的权重变成7/3；第二次分类，正确的是11，错误的是3，错误的点的权重变成11/3。

权重公式： $weight = ln\left ( \frac{accuracy}{ 1 - accuracy} \right )$ ，这个公式可以变形，就是：正确的点 / 错误的点，然后再取对数。

如下图这种极端模型，几乎不可能发生，没什么可担心的，但是为了一致性检查，仍然有必要，来分如下这种极端案例。

集合模型

下图的做法，把右侧的三张图放到左侧图片中，对应的位置天上数字，图与图之间用加班做运算。

slearn中的Adaboost

>>> from sklearn.ensemble import AdaBoostClassifier
>>> model = AdaBoostClassifier()
>>> model.fit(x_train, y_train)
>>> model.predict(x_test)

超参数

当我们定义模型时，我们可以确定超参数。在实际操作中，最常见的超参数为：

base_estimator: 弱学习器使用的模型（切勿忘记导入该模型）。
n_estimators: 使用的弱学习器的最大数量。

比如在下面的例子中，我们定义了一个模型，它使用 max_depth 为 2 的决策树作为弱学习器，并且它允许的弱学习器的最大数量为 4。

>>> from sklearn.tree import DecisionTreeClassifier
>>> model = AdaBoostClassifier(base_estimator = DecisionTreeClassifier(max_depth=2), n_estimators = 4)

监督学习——集成方法

Bagging

AdaBoost

数据权重

集合模型

slearn中的Adaboost

超参数

相关学习资源