机器学习期末复习 集成学习

1.集成学习的一般结构?

(1)产生一组个体学习器

(2)用某些策略将个体学习器结合

2.(判断)集成学习主要分为并行算法和串行算法。其中随机森林属于串行算法,即每一颗树的学习受其他树学习的影响。F

3.Bagging和Boosting算法的区别 


(1)样本选择:

Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
(2)样例权重:

Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
(3)预测函数:

Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
(4)并行计算:

Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
(5)预测结果:

Bagging:趋于降低方差,使模型更稳定。(各个基学习器并行训练,互不干扰,因此每个基学习器的误差实现对独立的。)
Boosting:趋于降低偏差,模型准确率更高。(采用向前分布算法,后一个基学习器需要优化前一个学习器的残差,因此误差越来越小,准确率会更高)
 

4.如何生成多样性大的学习器?

在学习过程中引入随机性(对数据样本,输入属性,输出表示,算法参数进行扰动)

数据样本扰动:

基于采样法,即选择不同的训练集。bagging采用自助采样,adaboost使用序列采样

输入属性扰动:

即在数据的属性集中选取部分属性,从而产生多样性大的个体,节约时间开销

输出表示扰动:

随机改变一些训练样本的标记;将原任务拆分为多个子任务

算法参数扰动:

对有参数的学习器随机设置不同的参数。神经网络使用“负相关法”强制个体神经网络使用不同的参数,决策树使用不同的最优划分方法。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值