- Combiners
- 集成学习的核心:Combiner(因为不同的分类器有不同的输出,最后却要形成一个统一的决定)
- Majority Voting(少数服从多数)
- Weighted Majority Voting(加权右下角图中用“阿尔法”表示,每个分类器的权重不同,“老板”说话和“普通员工”说话不同)
- 集成学习的核心:Combiner(因为不同的分类器有不同的输出,最后却要形成一个统一的决定)
- Diversity
- 假设、前提:集成学习effective(有用、有效果)的前提是使用不同的分类器
- Different Learning Algorithms
- 不同的分类器,例如决策树、支持向量机、神经网络
- Different Training Processes
- 大多数情况下,我们倾向于用相同的分类器(更便捷)
- 使用不同训练集
- 初始参数不同
- 特征不同
- 大多数情况下,我们倾向于用相同的分类器(更便捷)
- Different Learning Algorithms
- 好处
- 不需要使用很强的分类器,越强的分类器训练时的问题越多(例如计算复杂度高、过学习等)
- 假设、前提:集成学习effective(有用、有效果)的前提是使用不同的分类器
- Bootstrap Samples
- 问题:如何生成不同的训练样本,但是又服从类似的分布?
- 解决:bootstrap,一个·非常有名的统计学的采样方法(简单来说是有放回的采样)
- 方法:采样后的每一个Sample作为训练集,再训练,容易训练出不太一样的分类器
- Bagging
- 拿来一个数据集,使用Bootstrap采样50次,生成50个不同的sample
- 训练分类器(50个分类器在每一个不同的训练样本上独立训练)
- 得到了50个分类器后,“来了”一个未知样本,它到底是哪个分类(+1、-1)?
- 由50个“人”投票(说+1的多就是+1,-1的多就是-1),并且可以推广到多类问题
- Bagging
- 具体例子:
- 决策树(A Decision Tree)
- Tree vs. Forest
- 问题:如何把长得不同的决策树合在一起,形成一个好的分类器?
- 解决:随机森林(Random Forest)
- Random Forest
- 基本思想:Bagging(是Bagging的一个实例)
- 一般来说随机森林有500-5000棵树
- 公式:1/n为样本被选中的概率,1-1/n为样本没有被选中的概率。如果选了n次都没被选中,则加n次方,最后用1减去,含义为样本至少有一次被选中了的概率,当n趋于无穷时求得的值约为2/3
- 用处:2/3选中的可作为训练集,1/3没被选中的可作为测试集
- RF Main Features
- 随机森林花了非常多的心思生成不同的决策树
- 训练集不同
- 不是通过计算信息熵找出最好的属性分裂,而是随机取部分属性
- 随机森林花了非常多的心思生成不同的决策树
- RF Advantages
- 所有数据都可以被充分利用,不需要额外留出数据测试,即自然而然会有1/3没有“装”到训练集中的样本作为测试集:OOB(Out of Bag)
- 拿出一个样本,查找500棵树中哪些树中此样本是OOB(没有用此样本训练过,可以用这棵树来测试性能)
- 随机森林可以达到很高的精确度,需要调整的参数很少
- 决策树有过学习问题,随机森林中可以生成很深的决策树,但是所有决策树combine起来后,这个问题就会被大大削弱
- 特征选择(100个属性,开根号为10,则随机选择10个属性生成随机森林中各个不同的决策树)
- 模型结果通常不错
9.2群策群议:Bagging
于 2023-12-15 10:35:27 首次发布