【机器学习】Bagging和Boosting基础及应用

最新推荐文章于 2024-04-03 08:00:00 发布

brucewong0516

最新推荐文章于 2024-04-03 08:00:00 发布

阅读量3.3k

点赞数 2

分类专栏：机器学习无监督学习文章标签：机器学习 bootstrap 分类算法监督学习算法

本文链接：https://blog.csdn.net/brucewong0516/article/details/78656299

版权

机器学习同时被 2 个专栏收录

18 篇文章 4 订阅

订阅专栏

无监督学习

2 篇文章 0 订阅

订阅专栏

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，即将弱分类器组装成强分类器的方法。

首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。

1、Bagging (bootstrap aggregating)

Bagging即套袋法，其算法过程如下：

A）从原始样本集D中抽取训练集。每轮从原始样本集D中使用Bootstraping自助的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）

B）每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、人工神经网络等）

C）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。

下面，我用scikit-learn实现bagging来拟合Wine数据集来实战一下bagging方法。这是数据集的介绍：Wine数据集

#导入数据集
import pandas as pd
df_wine = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)
df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash', 'Alcalinity of ash', 'Magnesium', 'Total phenols', 'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins', 'Color intensity', 'Hue', 'OD280/OD315 of diluted wines', 'Proline']
df_wine = df_wine[df_wine['Class label'] != 1] # 数据集中有3个类别，这里我们只用其中的2个类别
y = df_wine['Class label'].values
X = df_wine[['Alcohol', 'Hue']].values 选择2个特征

#调用标签格式化包
from sklearn.preprocessing import LabelEncoder
调用交叉验证包
from sklearn.cross_validation import train_test_split
le = LabelEncoder()
y = le.fit_transform(y) # 把label转换为0和1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40,  random_state=1) # 拆分训练集的40%作为测试集
'''
#5次交叉验证
for i in range(5):
    #x和y的验证集和测试集，切分80-20%的测试集
    x_train, x_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size = 0.2)
    #训练
    clf.fit(x_train, y_train)
    #训练集与预测结果进行对比
    result.append(np.mean(y_test == clf.predict(x_test)))
'''
#导入决策树和集成学习算法中的bagging
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
tree = DecisionTreeClassifier(criterion='entropy', max_depth=None)
# 生成500个决策树，详细的参数建议参考官方文档
bag = BaggingClassifier(base_estimator=tree, n_estimators=500, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, n_jobs=1, random_state=1)

# 度量单个决策树的准确性
from sklearn.metrics import accuracy_score
tree = tree.fit(X_train, y_train)
y_train_pred = tree.predict(X_train)
y_test_pred = tree.predict(X_test)
tree_train = accuracy_score(y_train, y_train_pred)
tree_test = accuracy_score(y_test, y_test_pred)
print('Decision tree train/test accuracies %.3f/%.3f' % (tree_train, tree_test))
# Output：Decision tree train/test accuracies 1.000/0.854

# 度量bagging分类器的准确性
bag = bag.fit(X_train, y_train)
y_train_pred = bag.predict(X_train)
y_test_pred = bag.predict(X_test)
bag_train = accuracy_score(y_train, y_train_pred)
bag_test = accuracy_score(y_test, y_test_pred)
print('Bagging train/test accuracies %.3f/%.3f' % (bag_train, bag_test))

2、Boosting

其主要思想是将弱分类器组装成一个强分类器。在PAC（概率近似正确）学习框架下，则一定可以将弱分类器组装成一个强分类器。

关于Boosting的两个核心问题：

1）在每一轮如何改变训练数据的权值或概率分布？

通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。

2）通过什么方式来组合弱分类器？

通过加法模型将弱分类器进行线性组合，比如AdaBoost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。

而提升树通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型。

from sklearn.ensemble import AdaBoostClassifier

# 决策桩分类器性能
tree = DecisionTreeClassifier(criterion='entropy', max_depth=1)
tree = tree.fit(X_train, y_train)
y_train_pred = tree.predict(X_train)
y_test_pred = tree.predict(X_test)
tree_train = accuracy_score(y_train, y_train_pred)
tree_test = accuracy_score(y_test, y_test_pred)
print('Decision tree train/test accuracies %.3f/%.3f' % (tree_train, tree_test)) # Decision tree train/test accuracies 0.915/0.896

# Boosting分类器性能
ada = AdaBoostClassifier(base_estimator=tree, n_estimators=1000, learning_rate=0.1, random_state=0)
ada = ada.fit(X_train, y_train)
y_train_pred = ada.predict(X_train)
y_test_pred = ada.predict(X_test)
ada_train = accuracy_score(y_train, y_train_pred)
ada_test = accuracy_score(y_test, y_test_pred)
print('AdaBoost train/test accuracies %.3f/%.3f' % (ada_train, ada_test))

3、Bagging，Boosting二者之间的区别

Bagging和Boosting的区别：

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

4、总结

这两种方法都是把若干个分类器整合为一个分类器的方法，只是整合的方式不一样，最终得到不一样的效果，将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一分类器的分类效果，但是也增大了计算量。

下面是将决策树与这些算法框架进行结合所得到的新的算法：

1）Bagging + 决策树 = 随机森林

2）AdaBoost + 决策树 = 提升树

3）Gradient Boosting + 决策树 = GBDT

上面我提到的这些ensemble方法虽然提高了模型的性能，但是它与单个分类器相比确实增加了很多的计算开销。在实际应用中，应该仔细考虑我们是否想要用计算的代价来换取模型性能的提高。虽然已经证明bagging和boosting比单个分类器有更好的准确性，然而，我们必须考虑在什么情况下和怎么使用这些技术。

当训练集有很小地变化时都会导致预测结果有明显地不同，在这种情况下，Bagging会有很好地效果。Bagging更适合应用到具有很小偏差（small bias）地分类方法中。Bagging减小方差通过平均方法（averaging），如果你的模型具有很高的偏差，Bagging并不会对模型有很大的影响，就好比是一堆臭皮匠平均下来还是臭皮匠。但是，如果你的模型个个都是诸葛亮（都很好地拟合训练集，低方差），那么如果我把这些诸葛亮的决策结果平均下来，会产生很好地效果。

Boosting的原理就好比每个人（weak learners）都是一个比平民（随机猜测）厉害点的人物，我这里有个大问题需要这些人解决一下，Boosting派出第1个人解决了一些问题，但是剩下了一些难题，接着Boosting派出第2个人主要解决第1个人剩下地难题，接着Boosting派出第3个人解决第2个人剩下地难题，依此类推……到最后，Boosting一定可以很好地解决问题。从上面地例子中，我们也看出了每个人有很高地偏差（更适合解决某一部分问题，也就是不能很好地拟合训练集），但是，Boosting通过上面的手段不仅平均了大家的智慧而且还减小了某个人偏差的问题。

对于稳定的模型来说，Bagging并不会工作地很好，而Boosting可得会有帮助。如果在训练集上有noisy数据，Boosting会很快地过拟合，降低模型的性能，而Bagging不存在这样地问题。

一句话总结：在实际应用中，Bagging通常都会有帮助，而Boosting是一把利剑，用好的情况下肯定会比Bagging出色，但是用不好很可能会伤到自己。

http://blog.csdn.net/xlinsist/article/details/51475345 Bagging（Bootstrap aggregating）、随机森林（random forests）、AdaBoost
http://www.cnblogs.com/liuwu265/p/4690486.html Bagging和Boosting 概念及区别