BaggingClassifier分类器的使用方法

本文介绍了BaggingClassifier的工作原理,包括有放回采样与无放回采样的区别,以及如何通过设置参数如n_estimators、max_samples和max_features来控制分类器的行为。通过调整这些参数,可以创建包含500个决策器的集成,并利用oob_score进行包外评估,以提高模型的泛化能力。BaggingClassifier不仅对样本进行采样,还能对特征进行采样,以增强模型的多样性。
摘要由CSDN通过智能技术生成

使用BaggingClassifier,可以完成每一个分类器都使用相同的训练算法,但是在不同的训练集上去训练它们。bagging是有放回采样,而pasting为无放回采样。

from sklearn.ensemble import RandomForestClassifier,VotingClassifier,BaggingClassifier
from sklearn.tree import DicisionTreeClassifier
bag_clf=BaggingClassifier(DecisionTreeClassifier(),
		n_estimators=500,
		max_samples=100,
		bootstrap=True,
		n_jobs=-1,
		oob_score=True)

可以通过设置参数 bootstrap=False来切换为无放回采样。

n_estimators=500,表示有有500个相同的决策器。

max_samples=100,表示在数据集上有放回采样 100 个训练实例。

n_jobs=-1,n_jobs 参数告诉 sklearn 用于训练和预测所需要 CPU 核的数量。(-1 代表着 sklearn 会使用所有空闲核)

oob_score=True,表示包外评估,在bootstrap=True的时候,我们有放回的抽样会导致大概有37%左右的实例是未被采样的,用这些实例来对模型进行检验,将多个训练器在包外实例上的评估结果取平均值,就可以得到集成的评估。

在这里插入图片描述
两者获得的评估精度是很接近的。同时如果基础预测器支持predict_probe方法的话,那么可以使用oob_decision_function_变量来展示。

在这里插入图片描述
会提供分类后每种类别的概率。

上面是BaggingClassifier对于实例的取样,BaggingClassifier同时也支持对特征的取样。
由两个超参数 max_features 和 bootstrap_features 控制。
max_features,表示的是最大采样特征的数量。
bootstrap_features=True表示对特征采样。

from matplotlib.colors import ListedColormap

def 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值