最近在写那个完整的机器学习项目博客时候,我本来打算用一篇博客来写的。结果发现要写的越来越多。而且最关键的是,以前以为有些地方理解了,其实并没有理解。大概这就是写博客记笔记的好处吧。。。可惜我上高中初中那会,从来都没记过233333
这篇集成学习的总结呢,将结合sklearn 的运用说一说有关集成学习的一些东西,包括bagging、boosting、stacking和其他一些算法,我们会重点讨论随机森林、GBDT、Xgboost、LightGBM。也包括sklearn 当中怎么使用它们,sklearn中对这些参数怎么进行调参等。
每一篇打算要最后回答这样几个问题:
该集成学习方法的流程?
该集成学习方法如何选择特征 ?
该集成学习方法 如何构建特征 ?
该集成学习方法如何用于分类或回归?
该集成学习方法通过什么方式减少误差 ?
该集成学习方法的效果相比于传统的LR,SVM效果为什么好一些 ?
该集成学习方法 如何加速训练?
该集成学习方法的参数有哪些,如何调参 ?
该集成学习方法实战当中遇到的一些问题 ?
该集成学习方法的优缺点 ?
该集成学习算法与其他集成方法的不同?
。
投票分类
假设你已经训练了一些分类器,每一个都有 80% 的准确率。你可能有了一个逻辑斯蒂回归、或一个 SVM、或一个随机森林,或者一个 KNN,或许还有更多。现在我们可以在这些基学习器的基础上得到一个投票的分类器,把票数最多的类作为我们要预测的类别