集成学习中笔记03 boosting思路和adaboost算法

最新推荐文章于 2023-03-16 17:27:14 发布

ritatype

最新推荐文章于 2023-03-16 17:27:14 发布

阅读量127

点赞数

本文链接：https://blog.csdn.net/ritatype/article/details/115864929

版权

集成学习中笔记03 boosting思路和adaboost算法

boosting算法与bagging算法不同，主要在通过不断的训练，减小预测偏差。具体开源学习内容可参考：datawhale

1.boosting方法的基本思路

boosting算法简单来说，是对一系列弱分类器的结果进行组合，构成一个强分类器，以减少模型预测的偏差。大多数的boosting方法都是通过改变训练数据集的概率分布（训练数据不同样本的权值），针对不同概率分布的数据调用弱分类算法学习一系列的弱分类器。
与bagging算法不同的是，boosting训练的一直都是同一组数据集

2.Adaboost算法

adaboost算法是boosting算法的一种，通过对多个弱分类器的分类结果进行权重组合，使分类错误率较低的弱分类器在表决中起到较大的作用。
adaboost中，最终分类器的权重之和并不等于1

2.1 基本原理

从adaboost的计算过程中可以看出它的基本原理：

首先确定长度为N的二分类数据各自的权重，初始化一般设定权重为1/N
确定权重之后，按现有权重计算弱分类器的分类误差率（这里可以随意选择分类器，常用的有随机森林、决策树等）
根据弱分类器的分类误差率，更新训练数据集的权重分布。权重更新遵循：被错误分类的样本，增大权重
重复以上步骤M次，可得到M个不同的分类器，对这些分类器进行线性组合，可得到最终的分类器

2.2 案例

以下通过鸢尾花数据对adaboost的算法进行建模：

# 引入数据科学相关工具包：
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
plt.style.use("ggplot")
%matplotlib inline
import seaborn as sns

# 加载训练数据：鸢尾花数据
from sklearn import datasets
iris = datasets.load_iris()
irisFeatures = iris["data"]
irisFeaturesName = iris["feature_names"]
irisLabels = iris["target"]
#这里需要注意，鸢尾花的标签为0、1、2，属于多分类问题

X=irisFeatures
y=irisLabels

# 将分类标签变成二进制编码：
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

# 按8：2分割训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1,stratify=y) 
# stratify参数代表了按照y的类别等比例抽样

# 使用单一决策树建模
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(criterion='entropy',random_state=1,max_depth=1)#
from sklearn.metrics import accuracy_score
tree = tree.fit(X_train,y_train)
y_train_pred = tree.predict(X_train)
y_test_pred = tree.predict(X_test)
tree_train = accuracy_score(y_train,y_train_pred)
tree_test = accuracy_score(y_test,y_test_pred)
print('Decision tree train/test accuracies %.3f/%.3f' % (tree_train,tree_test))

Decision tree train/test accuracies 0.667/0.667
但当决策树使用默认参数时：Decision tree train/test accuracies 1.000/0.967

# 使用sklearn实现Adaboost(基分类器为决策树)
'''
AdaBoostClassifier相关参数：
base_estimator：基本分类器，默认为DecisionTreeClassifier(max_depth=1)
n_estimators：终止迭代的次数
learning_rate：学习率
algorithm：训练的相关算法，{'SAMME'，'SAMME.R'}，默认='SAMME.R'
random_state：随机种子
'''
from sklearn.ensemble import AdaBoostClassifier
ada = AdaBoostClassifier(base_estimator=tree)
ada = ada.fit(X_train,y_train)
y_train_pred = ada.predict(X_train)
y_test_pred = ada.predict(X_test)
ada_train = accuracy_score(y_train,y_train_pred)
ada_test = accuracy_score(y_test,y_test_pred)
print('Adaboost train/test accuracies %.3f/%.3f' % (ada_train,ada_test))

Adaboost train/test accuracies 1.000/0.967

ritatype

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习中笔记03 boosting思路和adaboost算法

集成学习中笔记03 boosting思路和adaboost算法boosting算法与bagging算法不同，主要在通过不断的训练，减小预测偏差。具体开源学习内容可参考：datawhale1.boosting方法的基本思路boosting算法简单来说，是对一系列弱分类器的结果进行组合，构成一个强分类器，以减少模型预测的偏差。大多数的boosting方法都是通过改变训练数据集的概率分布（训练数据不同样本的权值），针对不同概率分布的数据调用弱分类算法学习一系列的弱分类器。与bagging算法不同的是，
复制链接

扫一扫