Bagging与随机森林
Bagging
自助法(bootstrapping)
给定包含
m
个样本的数据集
即通过自助采样,初始数据集
D
中约有
流程
通过自助采样法,可以采样出
T
个含
随机森林
随机森林是Bagging的一个扩展变体。RF 在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性时是在当前的节点的属性集合(假定有
d
个属性)中选择一个最优属性;而在RF中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含
值得一提的是,随机森林的训练效率常优于 Bagging,因为在个体决策树的构建过程中,Bagging使用的是“确定型”决策树,在选择划分属性时要对节点的所有属性进行考察。而随机森林使用的“随机型”觉得书则只需要考察一个属性子集。
结合策略
由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳。第二,学习算法往往会陷入局部极小,有的局部极小点对应的泛化性能可能很糟糕,而通过多次运行后进行结合,可降低陷入糟糕局部极小点的风险。