目录
1. 个体学习器概念
2. 集成学习概念
3. boosting bagging
4. 结合策略(平均法,投票法,学习法)
5. 随机森林思想
6. 随机森林的推广
7. 优缺点
8. sklearn参数
9. 应用场景
1. 个体学习器概念
通常由一个现有的学习算法训练数据所产生。
- 个体学习器是同一种类(同质)。比如集成学习中全是决策树个体学习器,或者全是神经网络个体学习器。
根据依赖关系再划分:
a) 强依赖关系:一系列个体学习器基本都需要串行生成,代表算法是boosting系列算法。
b) 不存在强依赖关系:一系列个体学习器可以并行生成,代表算法是bagging和随机森林(Random Forest)系列算法。 - 个体学习器不全是同一种类(异质)。
目前来说,同质个体学习器的应用是最广泛的,其中使用最多的模型是CART决策树和神经网络。
2. 集成学习概念
集成学习(ensemble learning),不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等。 针对训练集数据,通过训练若干个个体学习器,并结合一定的策略,最终形成一个强学习器。
集成学习解决两个问题:
- 得到若干个个体学习器
- 选择一种结合策略
3. boosting bagging
3.1 boosting