【scikit-learn】sklearn.ensemble.AdaBoostClassifier 类:自适应提升分类器

sklearn.ensemble.AdaBoostClassifier(自适应提升分类器)

AdaBoostClassifiersklearn.ensemble 提供的 自适应提升(Adaptive Boosting,简称 AdaBoost) 分类模型,它通过 加权组合多个弱分类器 提高分类性能,适用于 二分类和多分类任务


1. AdaBoostClassifier 作用

  • 用于分类任务(如 信用评分、垃圾邮件检测)。
  • 基于多个弱分类器(默认是 DecisionTreeClassifier)逐步优化错误样本的权重
  • 适用于小数据集,提升简单模型的性能

2. AdaBoostClassifier 代码示例

(1) 训练 AdaBoost 分类器

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 训练 AdaBoost 分类器
model = AdaBoostClassifier(n_estimators=50, learning_rate=1.0, random_state=42)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = model.score(X_test, y_test)
print("准确率:", accuracy)

解释

  • n_estimators=50:使用 50 个弱分类器(默认是决策树 stump)。
  • learning_rate=1.0:学习率,控制弱分类器的贡献。
  • random_state=42:保证结果可复现。

3. AdaBoostClassifier 主要参数

AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm="SAMME.R", random_state=None)
参数说明
base_estimator弱分类器(默认 None,即 DecisionTreeClassifier(max_depth=1)
n_estimators弱分类器数量(默认 50,值越大,模型越强但计算量增加)
learning_rate学习率(默认 1.0,较小值提高泛化能力,需增加 n_estimators
algorithm“SAMME” or “SAMME.R”(默认 "SAMME.R",梯度加权)
random_state设置随机种子,保证结果可复现

4. 获取特征重要性

import numpy as np

feature_importances = model.feature_importances_
feature_names = iris.feature_names

# 输出特征重要性
for name, importance in zip(feature_names, feature_importances):
    print(f"{name}: {importance:.4f}")

解释

  • feature_importances_ 返回每个特征的重要性(数值越大,该特征越关键)。

5. 计算模型性能

from sklearn.metrics import classification_report

print("分类报告:\n", classification_report(y_test, y_pred))

解释

  • 计算精确率、召回率和 F1 分数,评估模型表现。

6. AdaBoostClassifier vs. GradientBoostingClassifier

模型适用情况主要区别
AdaBoostClassifier分类任务,基于弱分类器弱分类器权重调整,提高分类能力
GradientBoostingClassifier分类任务,基于决策树逐步优化误差,性能更强

示例

from sklearn.ensemble import GradientBoostingClassifier

gbdt = GradientBoostingClassifier(n_estimators=50, learning_rate=1.0, max_depth=3, random_state=42)
gbdt.fit(X_train, y_train)

print("AdaBoost 准确率:", model.score(X_test, y_test))
print("GBDT 准确率:", gbdt.score(X_test, y_test))

解释

  • AdaBoost 适用于简单弱分类器GBDT 适用于 更复杂的决策树组合

7. learning_rate 对模型的影响

import numpy as np

learning_rates = [0.01, 0.1, 1.0, 2.0]
for lr in learning_rates:
    model = AdaBoostClassifier(n_estimators=50, learning_rate=lr, random_state=42)
    model.fit(X_train, y_train)
    print(f"学习率={lr}, 测试集准确率={model.score(X_test, y_test)}")

解释

  • 较小的 learning_rate(如 0.01)需要更多 n_estimators 才能达到相同效果
  • 较大的 learning_rate(如 2.0)可能导致过拟合

8. 适用场景

  • 分类任务(如 信用评分、垃圾邮件检测)。
  • 数据集较小,使用简单模型但希望提高准确率
  • RandomForestClassifier 不足时,AdaBoost 可能更优

9. 结论

  • AdaBoostClassifier 适用于分类任务,逐步调整弱分类器的权重,提高分类性能,比单独的决策树更强大,但 训练时间较长,可以 调整 learning_raten_estimators 控制模型复杂度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彬彬侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值