一、简介
Bootstrap aggregating 又称为Bagging 是一种用来增强学习算法准确度的算法,由 Leo Breiman 在1994年提出,能够用来提高不稳定算法的准确度和稳定性,通常用于统计分类和回归中,它能够减小方差并避免过拟合。基本思想是利用Bootstrap算法从训练集中有放回的抽样,得到M个训练集,利用机器学习算法获得在每个新的训练集上的结果,对于分类,对M个结果进行投票,获得最终的分类结果;对于回归问题,对M个结果进行平均。
二、分类算法流程
1. 从样本集D中用Bootstrap采用(有放回地采样)选出N个样本
2. 对这n个样本建立分类器(CART、SVM、ANN)
3. 重复以上两步M次,建立M个分类器(CART、SVM、ANN)
4. 对于测试数据,在M个分类器上获得M个分类结果,最后投票看到底分到哪一类
三、回归算法流程
1. 从样本集D中用Bootstrap采用(有放回地采样)选出N个样本
2. 对这n个样本建立回归(CART、LS)
3. 重复以上两步M次,建立M个回归(CART、LS)
4. 对于测试数据,在M个分类器上获得M个回归预测结果,最后求均值
to be continued...