集成算法,用多个分类器来提高准确率
问题:
集成算法有哪几种?
各自的方式是什么样的
集成算法,分为三种:Bagging、Boosting、Stacking
并行,提升和堆叠
从字面上就可以大概知道他们的意思:
Bagging 并行:并行训练多个模型,最后综合多个模型的结果,得出最后的结果
这里的并行训练,是指让多个分类器各自训练,互不影响。
Bagging 的代表:随机森林
随机森林,随机和 森林来理解
随机就是每个分类器的数据采样和选择特征都是随机的,但是数量都是一样的,而且都是有放回的选取
例如,每个分类器采集的数据样本数量都是60条,选择特征的数量都是3个
森林,就是用之前提过的决策树,用多个决策树也就构成了森林。
(为什么不用KNN其他的分类器呢,这是因为用决策树并行训练的效果是好过其他的分类器的,所以经常使用的是树)
然后分类器自己进行训练,最后测试的时候同样每个分类器自己测试
需要输出结果的时候,如果是分类,则用众数得出最后结果;如果是回归,则应该用平均数
随机森林优点:
1.易处理高维数据(特征很多的数据),不需要进行特征的选择
2.可以得出特征重要性 Feature Importance
3.速度快
4.可视化
这里要解释一下的是特征重要性 Feature Importance。
用随机森林可以帮助我们分析特征