1 什么是集成学习
集成学习通过建⽴⼏个模型来解决单⼀预测问题。 它的⼯作原理是⽣成多个分类器/模型, 各⾃独⽴地学习和作出预测。 这些预测最后结合成组合预测, 因此优于任何⼀个单分类的做出预测。
2 机器学习的两个核心任务
任务⼀: 如何优化训练数据 —> 主要⽤于解决⽋拟合问题
任务⼆: 如何提升泛化性能 —> 主要⽤于解决过拟合问题
3 集成学习中Boosting 和 Bagging
只要单分类器的表现不太差, 集成学习的结果总是要好于单分类器的
4 Bagging 和 随机森林
4.1 Bagging 集成原理
目标:把下面的圈和方块进行分类
实现过程:
1) 采样不同数据集
2)训练分类器
3)平权投票, 获取最终结果
4)主要实现过程⼩结
4.2 随机森林构造过程
在机器学习中, 随机森林是⼀个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数⽽定。随机森林 = Bagging + 决策树