集成学习包括:bagging算法和booting算法。 本节主要讨论bagging算法。
1.定义:
bootstrap aggregating的缩写。让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练样本组成,某个初始训练样本在某轮训练集中可以出现多次或根本不出现,训练之后可得到一个预测函数序列h_1,⋯ ⋯h_n ,最终的预测函数H对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。
2.结果
左列为decision tree regression,右列为bagging regression,可以看出,bagging算法预测误差要小于决策树方法。
同时展示了误差分解: error=bias^2+variance+noise.
误差分解原理可以参考另外一篇博文:http://blog.csdn.net/dataningwei/article/details/53580417