1.Bagging 模型为什么要进行抽样?
Bagging 模型是基于同样类型的基学习器进行集成学习,如果不进行
抽样,那么所有的基学习器都学习了同样的数据,模型之间就没有不
同,模型必须具有一定的差异性,才能更大程度提升整个模型的准确
度,通过数据抽样的方式,让基学习器学习不同的数据,从而生成具
有差异性的基学习器。
2.有放回抽样和无放回抽样的区别是什么?
有放回抽样:在一轮抽样期间,每次抽完一个数据,就立马将该数据放回。
如果一轮要抽样n个数据,那么就会有n次数据的放回动作。
无放回抽样:数据只有到一轮抽样结束后,才可能被放回。
3.什么是包外数据?它有什么用处?
如果采用有放回的抽样方式,那么通过概率学统计,大概有 37%的数据会
一直没有被抽取到。这些数据被称为包外数据,他们可以用来对模型进行
预测和评估。使用oob_score属性来进行测试计算得分
4.Bagging 为什么可以做并行化运行?
Bagging 的基学习器之间是相互独立,没有依赖关系的,所以可以做
并行化。