模型集成(Model Ensemble)

模型集成(Model Ensemble)

模型集成是融合多个训练好的模型,基于某种方式实现测试数据的多模型融合,这样来使最终的结果能够“取长补短”,融合各个模型的学习能力,提高最终模型的泛化能力。近年来,model ensemble已成刷榜神器。它可以应用在图像分割、分类、检测等领域。
模型集成方法主要应用在几个模型差异性较大,相关性较小上。这样效果比较明显。
常用的model ensemble方法有:投票(voting), 平均(averaging), 堆叠(Stacking),非交叉堆叠(Blending)

1. 投票法(Voting)

投票法即我们常见的“少数服从多数”原则,我们可以统计在多个模型的分类结果,哪个类别频数高,即选择哪个类别。假设有五个模型,则很难对某一数据的分类为1,1,1,2,2。则投票结果为1.

2. 平均法(Averaging)

平均法在回归问题及含阈值调节的场景更多一些。它的主要操作是对于多个模型计算的结果求平均作为最终的结果

3. 堆叠法(Stacking)

堆叠法可以总结内如下三个步骤:

  1. 模型内交叉验证(cross validation)
  2. 模型间特征组合
  3. 新的特征组合训练新的模型
    堆叠法可以理解为级联网络,上面的第一、二个步骤组合成为第一阶段,上面的第三步骤为第二阶段

4. 模型内交叉验证

每一个模型单独进行交叉验证训练,在每折测试集上进行infer,最终得到整个数据集的概率图

5. 模型间特征平均

假设有N个模型,则上一步会得到N个概率图。求这N个概率的平均图

新的特征组合训练新的模型
以第二步得到的平均图作为训练数据,label用最开始标注好的label,重新进行训练

6. 非交叉堆叠(Blending)

Blending的出现是为了解决Stacking在交叉验证阶段出现的数据泄露,容易产生过拟合,Blending直接使用不相交的数据集用于不同层的训练,通俗的理解就是不做交叉验证,而是将训练集分成3:7两个部分,70%作为训练集,对30%验证集和测试集进行预测,第二层是对30%验证集的预测结果进行训练,不存在数据泄露的问题。但是存在30%验证集数量较少,容易过拟合的问题,所以在实际融合中,使用Stacking还是Blending是有很多Trick的。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
集成学习是一种通过组合多个基本模型来提高预测准确性的机器学习方法。下面是一个使用Python实现集成学习模型的示例代码: ```python # 导入所需的库 from sklearn.ensemble import VotingClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载数据集 iris = load_iris() X, y = iris.data, iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 定义基本模型 model1 = DecisionTreeClassifier() model2 = KNeighborsClassifier() model3 = SVC() # 定义集成学习模型 ensemble_model = VotingClassifier(estimators=[('dt', model1), ('knn', model2), ('svm', model3)], voting='hard') # 训练集成学习模型 ensemble_model.fit(X_train, y_train) # 在测试集上进行预测 y_pred = ensemble_model.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print("准确率:", accuracy) ``` 在上面的代码中,我们使用了三个基本模型:决策树分类器(DecisionTreeClassifier)、K近邻分类器(KNeighborsClassifier)和支持向量机分类器(SVC)。然后,我们使用VotingClassifier来定义集成学习模型,其中estimators参数指定了基本模型的名称和实例,voting参数指定了投票策略('hard'表示多数表决)。最后,我们使用fit方法训练集成学习模型,并使用predict方法在测试集上进行预测,最后计算准确率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fighting_1997

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值