集成学习
集成学习由多个个体学习器组成,如果集成是‘同质’的(即所有个体学习器是同一种算法)那么这些个体学习器称为基学习器(base learner)。‘异质’的称为‘组件学习器’(component learner).
个体学习器应满足两个条件
- 准确性
- 多样性
第一,如果学习器不准确,那么也就没用了;第二,如果学习器没有多样性那么再多的个体学习器也等于一个学习器,并没有数量上的优势。
一、boosting
还不太了解以后补充。。。。。
二、bagging
利用有放回的重采样(自助采用法)来产生多样性。
假设有m个样本的数据集,经过m次的有放回随机采样,得到m个样本的采用集。
可以采用出T个采样集,然后基于每个采样集训练处一个基学习器,再将这些基学习器进行组合。
对于分类任务使用简单投票法,对于回归任务采用简单平均法。
自助采用法有个好处就是可以进行包外估计。
三、随机森林 = bagging + 随机属性选择
随机森林(Random Forest)是在Bagging的基础上,进一步在决策树的训练过程中加入了随机属性选择。
在RF中,对于基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。
随机森林中基学习器的多样性不仅来自样本扰动还来自于属性扰动,这使得最终集成的泛华性能可通过个体学习器之间差异度的增加而进一步提高。