Bagging降低方差(variance),boosting降低偏差(bias)
简单的记:
Bagging降低方差的原因:bagging是随机取样,因此模型间相关性不高,所以可以防止过拟合
Boosting降低偏差的原因:Boosting是对完整的训练样本赋予了权重,每次训练都更逼近真实结果,所以是降低偏差
总结:
Bagging: 减少方差,通常也可以避免过拟合,但基准模型需要低偏差
基准模型互相独立,运行速度快
Boosting:减少偏差,基准模型需要低方差,避免过拟合
各个基准模型只能顺序生成,运行速度较慢
Random Forest(随机森林)是什么?
随机森林包含了Bagging,但对Bagging进行了优化。
它包含了两个步骤:
-
对于每棵树而言,随机且有放回地从训练集中的抽取若干个训
练样本( bootstrap sample ),作为该树的训练集。 -
随机地从该数据集所有特征中选取一个特征子集,