幕布文档:集成学习-幕布
建议幕布查看,效果更好
- 集成学习(ensembale learning)概念
-
集成学习
通过构建并结合多个学习器来完成学习任务。又叫多分类器系统、基于委员会的学习。 -
个体学习器+结合策略
-
集成学习类型
-
同质
只包含同类型的个体学习器
-
个体学习器称为基学习器
-
相应的学习算法称为基学习算法
-
-
异质
包含不同类型的个体学习器
- 个体学习器不称为基学习器,常称为组件学习器,或直接称为个体学习器
-
-
弱学习器
泛化性能略优于随机猜测的学习器,如二分类准确率略高于50%
-
集成学习优点
- 比单一学习器显著优越的泛化性能
-
个体学习器原则
-
好而不同
-
准确性(好)
-
多样性(不同)
-
-
-
分类(两类)
-
个体学习器间存在强依赖关系,必须串行生成的序列化方法
- Boosting
-
个体学习器间不存在强依赖关系,可同时生成的并行方法
-
Bagging
-
随机森林(Random Forest,RF)(Random Forest,RF)
-
-
-
Boosting
-
特点
- 个体学习器间存在强依赖关系,必须串行生成的序列化方法
-
Boosting工作机制
-
先从初始训练集训练出一个基学习器
-
再根据基学习器的表现调整训练样本分布,使得先前基学习器做错的训练样本在后续受到更多关注。
-
然后基于调整后的样本分布来训练下一个基学习器
-
如此重复,训练T个基学习器,最终将这T个基学习器进行加权结合
-
-
经典代表
- AdaBoost
- 仅适用于二分类任务
- AdaBoost
-
实施方法
-
重赋权法
为每一个训练样本赋予权重 -
重采样法
根据样本分布对训练数据重采样,再用采样后的数据进行训练
-
-
偏差-方差分析
- 降低偏差
-
-
Bagging与随机森林
-
Bagging
-
Bagging工作机制
- 通过采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合
-
结合方法
-
对于分类任务
- 简单投票法
-
对于回归任务
- 简单平均法
-
-
自助采样法
-
有放回的随机采样
-
原始训练集中约有63.2%的样本出现在采样集中
-
包外估计和包外样本
- 使用剩下的36.8%的数据(包外样本)作为验证集对泛化性能进行包外估计
-
-
偏差-方差分析
-
降低方差
-
在易受样本扰动的学习器(不剪枝决策树、神经网络)上效果更为明显
-
-
-
随机森林(Random Forest,RF)
-
随机森林工作机制
-
随机森林在以决策树为基学习器,构建Bagging集成的基础上,在决策树的训练过程中引入随机属性选择
-
具体而言,在选择划分属性时,传统决策树是在当前节点的属性集合(假设含d个属性)中选择一个最优属性。而在RF中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,再从子集中选择一个最优属性用于划分
-
-
与Bagging对比
-
Bagging
- 样本扰动
-
随机森林RF
-
样本扰动
-
属性扰动
-
-
-
优点
-
简单
-
容易实现
-
计算开销小,训练性能快。因为在选择划分属性时,只考察节点属性的子集(而不是所有属性)
-
强大的性能,“集成学习代表”
-
-
-
-
结合策略
-
平均法(回归任务)
-
简单平均法
- 个体性学习器性能相近时适合使用
-
加权平均法
-
权重一般从训练数据中学习而得
-
个体性学习器性能相差较大时适合使用
-
-
-
投票法(分类任务)
-
绝对多数投票法
- 得票过半,则预测该标记,否则拒绝预测
-
相对多数投票法
- 预测为得票最多的标记。若得票相同,则随机选一个
-
加权投票法
-
-
学习法
-
通过另一个学习器进行结合
-
典型
- Stacking
-
学习器
-
个体学习器称为初级学习器
-
结合学习器称为次级学习器或元学习器
-
-
-