集成学习
Boosting:
串行方式训练基分类器, 各分类器之间有强依赖关系。基本思想是基分类器层层叠加, 每一层基分类器在训练的时候, 对前一层基分类器分错的样本给与更高的权重。 最后的结果由根据各层分类器的结果加权得到。
Bagging:
各分类器之间无依赖, 可以使用并行的方式。基本思想是, 各个个体分而治之, 独立作出判断, 在通过投票的方式,做出最后的决策。
偏差:
偏差是指由有所采样得到的大小为m的训练数据集,训练出的所有模型的输出的平均值和真实模型输出之间的偏差
方差:
所有采样得到的大小为m的训练数据集,训练出的所有模型的输出的方差
为什么选择决策树作为基分类器?
1. 可以方便的将样本的权重更新到训练过程中, 不需要使用过采样的方法来调节样本的权重。
2. 决策树的表达能力和泛化能力, 可以通过调节输的结构来控制
3. 数据样本的扰动对决策树影响较大, 不稳定的学习器更适合基分类器。
可否将随机森林的基分类器, 由决策树替换为线性分类器或者KNN?
不可以, 决策树的本质就是Bagging + CART, Bagging 的主要好处就是通过减小方差来提高模型的性能, 集成后的分类器, 比基分类器的方差