sklearn.ensemble.AdaBoostClassifier
(自适应提升分类器)
AdaBoostClassifier
是 sklearn.ensemble
提供的 自适应提升(Adaptive Boosting,简称 AdaBoost) 分类模型,它通过 加权组合多个弱分类器 提高分类性能,适用于 二分类和多分类任务。
1. AdaBoostClassifier
作用
- 用于分类任务(如 信用评分、垃圾邮件检测)。
- 基于多个弱分类器(默认是
DecisionTreeClassifier
)逐步优化错误样本的权重。 - 适用于小数据集,提升简单模型的性能。
2. AdaBoostClassifier
代码示例
(1) 训练 AdaBoost 分类器
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
# 训练 AdaBoost 分类器
model = AdaBoostClassifier(n_estimators=50, learning_rate=1.0, random_state=42)
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
# 计算准确率
accuracy = model.score(X_test, y_test)
print("准确率:", accuracy)
解释
n_estimators=50
:使用50
个弱分类器(默认是决策树stump
)。learning_rate=1.0
:学习率,控制弱分类器的贡献。random_state=42
:保证结果可复现。
3. AdaBoostClassifier
主要参数
AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm="SAMME.R", random_state=None)
参数 | 说明 |
---|---|
base_estimator | 弱分类器(默认 None ,即 DecisionTreeClassifier(max_depth=1) ) |
n_estimators | 弱分类器数量(默认 50 ,值越大,模型越强但计算量增加) |
learning_rate | 学习率(默认 1.0 ,较小值提高泛化能力,需增加 n_estimators ) |
algorithm | “SAMME” or “SAMME.R”(默认 "SAMME.R" ,梯度加权) |
random_state | 设置随机种子,保证结果可复现 |
4. 获取特征重要性
import numpy as np
feature_importances = model.feature_importances_
feature_names = iris.feature_names
# 输出特征重要性
for name, importance in zip(feature_names, feature_importances):
print(f"{name}: {importance:.4f}")
解释
feature_importances_
返回每个特征的重要性(数值越大,该特征越关键)。
5. 计算模型性能
from sklearn.metrics import classification_report
print("分类报告:\n", classification_report(y_test, y_pred))
解释
- 计算精确率、召回率和 F1 分数,评估模型表现。
6. AdaBoostClassifier
vs. GradientBoostingClassifier
模型 | 适用情况 | 主要区别 |
---|---|---|
AdaBoostClassifier | 分类任务,基于弱分类器 | 弱分类器权重调整,提高分类能力 |
GradientBoostingClassifier | 分类任务,基于决策树 | 逐步优化误差,性能更强 |
示例
from sklearn.ensemble import GradientBoostingClassifier
gbdt = GradientBoostingClassifier(n_estimators=50, learning_rate=1.0, max_depth=3, random_state=42)
gbdt.fit(X_train, y_train)
print("AdaBoost 准确率:", model.score(X_test, y_test))
print("GBDT 准确率:", gbdt.score(X_test, y_test))
解释
- AdaBoost 适用于简单弱分类器,
GBDT
适用于 更复杂的决策树组合。
7. learning_rate
对模型的影响
import numpy as np
learning_rates = [0.01, 0.1, 1.0, 2.0]
for lr in learning_rates:
model = AdaBoostClassifier(n_estimators=50, learning_rate=lr, random_state=42)
model.fit(X_train, y_train)
print(f"学习率={lr}, 测试集准确率={model.score(X_test, y_test)}")
解释
- 较小的
learning_rate
(如0.01
)需要更多n_estimators
才能达到相同效果。 - 较大的
learning_rate
(如2.0
)可能导致过拟合。
8. 适用场景
- 分类任务(如 信用评分、垃圾邮件检测)。
- 数据集较小,使用简单模型但希望提高准确率。
- 当
RandomForestClassifier
不足时,AdaBoost 可能更优。
9. 结论
AdaBoostClassifier
适用于分类任务,逐步调整弱分类器的权重,提高分类性能,比单独的决策树更强大,但 训练时间较长,可以 调整learning_rate
和n_estimators
控制模型复杂度。