集成学习是将不同分类器组合成为一个元分类器,元分类器与其包含的当个分类器相比,元分类器具有更好的泛化性能。
一、bagging集成分类器
bagging没有使用相同的训练集拟合集成分类器中的单个成员分类器,bagging集成分类器的训练集使用了bootstrap抽样(有放回的随机抽样)。bagging可以提高不稳定模型的准确率,并且可以降低过拟合的程度。
注:抽样后的子集T可以与其他的子集相同,因为是有放回的抽样。
二、对比bagging和决策树的性能
1、计算bagging在训练集和测试集的准确率
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_