集成学习——组合不同的模型

最新推荐文章于 2025-03-26 22:07:26 发布

miaoyanmm

最新推荐文章于 2025-03-26 22:07:26 发布

阅读量5.8k

点赞数 5

本文链接：https://blog.csdn.net/miaoyanmm/article/details/82670932

版权

集成学习通过结合多个分类器，如多数投票、bagging和boosting，实现更强大的元分类器，提高泛化性能。文章介绍了简单多数投票分类器的工作原理，以及bagging如何通过bootstrap样本构建集成分类器以降低方差。此外，还详细阐述了自适应boosting（AdaBoost）如何通过迭代学习和加权错误样本来提升弱学习机的性能。实验证明，集成学习方法如bagging和AdaBoost在降低过拟合和提高测试集性能方面效果显著。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

集成学习（ensemble method）的目标是：将不同的分类器组合成为一个元分类器，与包含于其中的单个分类器相比，元分类器具有更好的泛化性能。

多数投票原则（majority voting）：将大多数分类器预测的结果作为最终类标，也就是说，将得票率超过50%的结果作为类标。多类标分类选择得票最多的类别。

多数投票

基于训练集，首先训练 m 个不同的成员分类器 ${(C_1, ..., C_m)}$ ，在多数投票原则下，可集成不同的分类算法，，如决策树、支持向量机、逻辑回归等。此外，也可以使用相同的成员分类算法拟合不同的训练子集，这种方法典型的例子就是随机森林算法，它组合了不同的决策树分类器。

多数投票原则的通用集成方法

想要通过简单的多数投票原则对类标进行预测，要汇总所有分类器 ${C_j}$ 的预测类标，并选出得票率最高的类别 ${\hat{y}}$ ：

假定二类别分类中的 n 个成员分类器都有相同的出错率 ${\varepsilon}$ ，此外，假定每个分类器都是独立的，且出错率之间是不相关的。基于这些假设，可以将成员分类器集成后的出错概率简单地表示为二项分布的概率密度函数：
集成出错概率

from scipy.misc import comb
import math
def ensemble_error(n_classifier, error):
    k_start = math.ceil(n_classifier / 2.0)
    probs = [comb(n_classifier, k) * error ** k * (1 - error) ** (n_classifier - k) for k in range(k_start, n_classifier + 1)]
    return sum(probs)

print(ensemble_error(n_classifier=11, error=0.25))

执行结果如下：

0.03432750701904297

实现 ensemble_error 函数后，在成员分类器出错概率介于0.0到1.0范围内，可以计算对应集成分类器的出错率。

import numpy as np 
error_range = np.arange( 0.0, 1.0, 0.01)
ens_error = [ensemble_error(n_classifier=11, error=error) for error in error_range]
import matplotlib.pyplot as plt 
plt.plot(error_range, ens_error, label='Ensemble error', linewidth=2)
plt.plot(error_range, error_range, linestyle='--', label='Base error', linewidth=2)
plt.xlabel('Base error')
plt.ylabel('Base/Ensemble error')
plt.legend(loc='upper left')
plt.grid()
plt.show()