目的:Bagging是通过结合几个模型降低泛化误差的技术。
主要思想:分别训练几个不同的模型,然后让所有模型表决测试样例的输出,这在机器学习里叫做模型平均(model averaging)。
采用这种思想的技术就是集成方法。
原理:不同的模型通常不会在测试集上产生完全相同的误差。
- Bagging涉及构造k个不同的数据集。每个数据集从原始数据集中重复采样构成,样本数量与原数据集相等,数据集大概有原始数据集2/3的样例。
- 模型i在数据集i上训练
- 每个数据集所含样本的差异导致了训练模型之间的差异
(未完待续)
公式推导(留坑)
References
[1]《深度学习》