【scikit-learn】sklearn.ensemble.AdaBoostClassifier 类：自适应提升分类器

彬彬侠

于 2025-03-19 10:20:56 发布

阅读量442

点赞数 5

分类专栏： scikit-learn 文章标签： AdaBoostClass 自适应提升分类器 AdaBoost sklearn scikit-learn 机器学习 python

本文链接：https://blog.csdn.net/u013172930/article/details/146337529

版权

scikit-learn 专栏收录该内容

113 篇文章

订阅专栏

`sklearn.ensemble.AdaBoostClassifier`（自适应提升分类器）

AdaBoostClassifier 是 sklearn.ensemble 提供的 自适应提升（Adaptive Boosting，简称 AdaBoost） 分类模型，它通过 加权组合多个弱分类器 提高分类性能，适用于 二分类和多分类任务。

1. `AdaBoostClassifier` 作用

用于分类任务（如 信用评分、垃圾邮件检测）。
基于多个弱分类器（默认是 DecisionTreeClassifier）逐步优化错误样本的权重。
适用于小数据集，提升简单模型的性能。

2. `AdaBoostClassifier` 代码示例

(1) 训练 AdaBoost 分类器

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 训练 AdaBoost 分类器
model = AdaBoostClassifier(n_estimators=50, learning_rate=1.0, random_state=42)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = model.score(X_test, y_test)
print("准确率:", accuracy)

解释

n_estimators=50：使用 50 个弱分类器（默认是决策树 stump）。
learning_rate=1.0：学习率，控制弱分类器的贡献。
random_state=42：保证结果可复现。

3. `AdaBoostClassifier` 主要参数

AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm="SAMME.R", random_state=None)

参数	说明
`base_estimator`	弱分类器（默认 `None`，即 `DecisionTreeClassifier(max_depth=1)`）
`n_estimators`	弱分类器数量（默认 `50`，值越大，模型越强但计算量增加）
`learning_rate`	学习率（默认 `1.0`，较小值提高泛化能力，需增加 `n_estimators`）
`algorithm`	“SAMME” or “SAMME.R”（默认 `"SAMME.R"`，梯度加权）
`random_state`	设置随机种子，保证结果可复现

4. 获取特征重要性

import numpy as np

feature_importances = model.feature_importances_
feature_names = iris.feature_names

# 输出特征重要性
for name, importance in zip(feature_names, feature_importances):
    print(f"{name}: {importance:.4f}")

解释

feature_importances_ 返回每个特征的重要性（数值越大，该特征越关键）。

5. 计算模型性能

from sklearn.metrics import classification_report

print("分类报告:\n", classification_report(y_test, y_pred))

解释

计算精确率、召回率和 F1 分数，评估模型表现。

6. `AdaBoostClassifier` vs. `GradientBoostingClassifier`

模型	适用情况	主要区别
`AdaBoostClassifier`	分类任务，基于弱分类器	弱分类器权重调整，提高分类能力
`GradientBoostingClassifier`	分类任务，基于决策树	逐步优化误差，性能更强

示例

from sklearn.ensemble import GradientBoostingClassifier

gbdt = GradientBoostingClassifier(n_estimators=50, learning_rate=1.0, max_depth=3, random_state=42)
gbdt.fit(X_train, y_train)

print("AdaBoost 准确率:", model.score(X_test, y_test))
print("GBDT 准确率:", gbdt.score(X_test, y_test))

解释

AdaBoost 适用于简单弱分类器，GBDT 适用于 更复杂的决策树组合。

7. `learning_rate` 对模型的影响

import numpy as np

learning_rates = [0.01, 0.1, 1.0, 2.0]
for lr in learning_rates:
    model = AdaBoostClassifier(n_estimators=50, learning_rate=lr, random_state=42)
    model.fit(X_train, y_train)
    print(f"学习率={lr}, 测试集准确率={model.score(X_test, y_test)}")