03_集成学习（Ensemble Learning）里的堆叠（Stacking）

最新推荐文章于 2024-05-05 19:16:43 发布

Vivian Ouyang

最新推荐文章于 2024-05-05 19:16:43 发布

阅读量4.8k

点赞数 5

分类专栏：集成学习（Ensemble Learning）文章标签：算法 python 机器学习人工智能

本文链接：https://blog.csdn.net/oyww710/article/details/106311285

版权

集成学习（Ensemble Learning）里的堆叠

- 堆叠

堆叠是我们将要学习的第二种集成学习技术。与投票一起，它属于非生成方法类，因为它们都使用经过单独训练的分类器作为基础学习器。元学习是广义的机器学习术语。它具有多种含义，但通常需要将元数据用于特定问题才能解决。它的应用范围从更有效地解决问题到设计全新的学习算法，这是一个正在发展的研究领域。堆叠是元学习的一种形式。主要思想是，我们使用基础学习器来生成问题数据集的元数据，然后使用另一个称为元学习器的学习器来处理元数据。基础学习器被认为是0级学习器，而元学习器被认为是1级学习器。换句话说，元学习器堆叠在基础学习器之上，因此名称堆叠。在堆叠过程中，我们没有明确定义组合规则，而是训练了一个模型，该模型学习如何最佳地组合基础学习器的预测。元学习器的输入数据集由基础学习器的预测（元数据）组成，如图所示：

在这里插入图片描述

如前所述，我们需要元数据来训练和操作我们的集。在操作阶段，我们仅传递来自基础学习器的数据。另一方面，训练阶段要复杂一些。我们希望元学习器发现基础学习器之间的优缺点。尽管有些人认为我们可以在训练集上训练基础学习器，对其进行预测，然后使用这些预测来训练我们的元学习器，但这会引起差异。我们的元学习器将发现（基础学习器）已经看到的数据的优缺点。由于我们要生成具有不错的预测（训练样本外）性能的模型，而不是描述性（训练样本内）性能，因此必须采用另一种方法。另一种方法是将我们的训练集分为基础学习器训练集和元学习器训练（验证）集。这样，我们仍将保留一个真实的测试集，在这里我们可以测量集成的性能。这种方法的缺点是我们必须将一些实例给验证集。此外，验证集合大小和训练集集合大小都将小于原始训练集合大小。因此，首选方法是利用K折交叉验证。对于每个K，基础学习器将在K-1折中进行训练，并在第K折中进行预测，从而生成最终训练元数据的100 / K百分比。通过重复此过程K次（每次折叠一次），我们将为整个训练数据集生成元数据。下图描述了该过程。最终结果是整个数据集的一组元数据，其中元数据是根据样本外数据生成的（从基础学习器的角度来看，是针对每个折叠）：在这里插入图片描述
堆叠取决于基础学习器的多样性。如果基础学习器在问题的整个领域表现出相同的特征和表现，那么元学习器将很难显着提高他们的集体表现。此外，将需要一个复杂的元学习器。如果基础学习器本身是多样化的，并且在问题的不同领域表现出不同的绩效特征，那么即使是简单的元学习器也将能够极大地提高他们的集体表现。混合使用不同的学习算法通常是一个好主意，以便捕获特征本身以及目标变量之间的线性和非线性关系。

通常，元学习器应该是一种相对简单的机器学习算法，以避免过度拟合。此外，应采取其他步骤以正规化元学习器。例如，如果使用决策树，则应限制树的最大深度。如果使用回归模型，则应首选正则化回归（例如弹性网或岭回归）。如果需要更复杂的模型以提高整体的预测性能，则可以使用多级堆栈，其中，随着堆栈级别的增加，模型的数量和每个模型的复杂性都会降低

在这里插入图片描述
元学习器的另一个真正重要的特征应该是能够处理相关的输入，尤其是像朴素的贝叶斯分类器那样，不对特征彼此之间的独立性做出任何假设。如果元学习器（元数据）的输入将高度相关，发生这种情况是因为所有基础学习器都受过训练以预测相同的目标。因此，他们的预测将来自相同函数的近似值。尽管预测值会有所不同，但它们会彼此接近。

尽管scikit-learn确实可以实现大多数集成方法，但堆栈并不是其中一种。下面我们会提供回归和分类问题中怎么用Python实现堆叠技术。

堆叠

回归问题
分类问题
写stacking的模块

回归问题

加载模块

from sklearn.datasets import load_diabetes
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.model_selection import KFold
from sklearn import metrics
import numpy as np

生成训练测试集

diabetes = load_diabetes()

train_x, train_y = diabetes.data[:400], diabetes.target[:400]
test_x, test_y = diabetes.data[400:], diabetes.target[400:]

创建基础学习器(base-learner)和元学习器（meta-learner）

## 基础学习器

base_learners = []
knn = KNeighborsRegressor(n_neighbors=5)

base_learners.append(knn)
dtr = DecisionTreeRegressor(max_depth=4 , random_state=123456)

base_learners.append(dtr)
ridge = Ridge()

base_learners.append(ridge)

## 元学习器
meta_learner = LinearRegression()

初始化学习者之后，我们需要为训练集创建元数据。通过首先用KFold（n_splits = 5）指定分割数（K），然后调用KF.split（train_x），将训练集分成五个。反过来，这将返回生成训练集的五个分段的训练和测试索引。对于这些每个拆分，我们使用train_indices（四个folds）指示的数据来训练我们的基础学习器，并在与test_indices相对应的数据上创建元数据。此外，我们将每个分类器的元数据存储在meta_data数组中，并将相应的目标存储在meta_targets数组中。最后，我们转置meta_data以获得（实例，特征）形状。

在训练集创建元数据集（meta-data）

# Create variables to store metadata and their targets

meta_data = np.zeros((len(base_learners), len(train_x)))
meta_targets = np.zeros(len(train_x))

meta_data.shape

(3, 400)

# Create the cross-validation folds
KF = KFold(n_splits=5)
meta_index = 0
for train_indices, test_indices in KF.split(train_x):
    for i in range(len(base_learners)):
        learner = base_learners[i]
        learner.fit(train_x[train_indices], train_y[train_indices])
        predictions = learner.predict(train_x[test_indices])
        meta_data[i][meta_index:meta_index+len(test_indices)] = predictions

    meta_targets[meta_index:meta_index+len(test_indices)] = train_y[

最低0.47元/天解锁文章

Vivian Ouyang

关注

5
点赞
踩
50

收藏

觉得还不错? 一键收藏
0
评论
03_集成学习（Ensemble Learning）里的堆叠（Stacking）

集成学习（Ensemble Learning）里的堆叠堆叠是我们将要学习的第二种集成学习技术。与投票一起，它属于非生成方法类，因为它们都使用经过单独训练的分类器作为基础学习器。元学习是广义的机器学习术语。它具有多种含义，但通常需要将元数据用于特定问题才能解决。它的应用范围从更有效地解决问题到设计全新的学习算法，这是一个正在发展的研究领域。堆叠是元学习的一种形式。主要思想是，我们使用基础学习器来生成问题数据集的元数据，然后使用另一个称为元学习器的学习器来处理元数据。基础学习器被认为是0级学习器，而元学习器被
复制链接

扫一扫