1.Bagging是什么?
Bagging 是一种集成学习方法,旨在提高模型的泛化能力和稳定性。它通过构建多个基学习器(通常是相同类型的模型),并结合它们的预测结果来减少方差和提高准确性。
2.Bagging的原理
Bagging 的关键思想是通过 自助采样(bootstrap sampling)从原始训练集中随机抽取多个不同的训练子集(可能包含重复样本),然后针对每个子集分别训练一个基学习器。最终的预测结果是所有基学习器预测结果的平均值(回归问题)或投票表决(分类问题)。
3.Bagging的工作流程
Bootstrap 抽样:从原始训练数据中使用自助采样(bootstrap sampling)得到多个不同的训练子集。
构建基学习器:针对每个训练子集,独立地训练一个基学习器(如决策树、随机森林等)。
集成预测:对于回归问题,将每个基学习器的预测结果进行平均;对于分类问题,采用投票表决的方式确定最终预测结果。
4.Bagging的优缺点
优点:
降低过拟合风险:通过组合多个模型的预测结果,减少了单个模型的方差,提高了泛化能力。
提高稳定性:由于每个基学习器都是在不同的训练子集上训练的,因此模型更稳定。
缺点:
计算开销较大:需要训练多个基学习器,可能会增加计算资源消耗。
可能会影响模型的解释性:由于集成了多个模型,最终预测结果可能较难解释。