注:本篇文章不涉及模型参数调优。参数调优是一个重要的大话题。
1、什么是集成算法?
多个模型集成在一起的模型叫做集成评估器ensemble estimator,组成集成评估器的每个模型都叫做基评估器base estimator或弱学习器。
2、集成算法有哪些?
装袋法Bagging
提升法Boosting
堆叠法Stacking
3、什么是装袋法Bagging?
Bagging选用相同的弱学习器作为基模型,每个基模型的训练数据不是全部的数据集,而是通过“有放回的随机抽样”得到的随机子集,预测时各个基模型进行权重投票,是一种并行的训练结构。袋装法的典型代表是随机森林。
4、什么是随机森林Random Forest?
随机森林是Bagging的一种改进。
随机体现在:样本选择的随机性,特征选择的随机性。
森林体现在:所有弱分类器都是分类回归树(CART二叉树)。
随机森林的特点:对异常值不敏感,模型不易过拟合,要求基模型准确率大于0.5。
随机森林包含随机森林分类器、随机森林回归器。
随机森林的用途:可用于特征筛选。
5、什么是提升法Boosting?
Boosting选用相同的弱分类器作为基模型,依次训练模型,每个基模型的训练数据会根据