机器学习之集成学习和随机森林

集成学习和随机森林

硬投票分类器:聚合每个分类器的预测,然后将得票最多的结果作为预测类别。
软投票法:如果所有分类器都能估算出类别的概率,可以将概率在所有单个分类器上平均,平均概率最高的类别作为预测。

采样时,如果将样本放回。称为bagging;采样不放回称为pasting
有些实例可能会被采样多次,而有些可能根本不被采样。一般来说,对每个预测器来说,平均只对63%训练实例进行采样,剩下的37%未被采样,称为包外实例。包外实例可被用来作为验证集。

对训练实例和特征都进行采样,称为随机补丁方法。而保留所有训练实例(bootstrap=False且max_samples=1.0)但是对特征进行抽样(bootstrap_feature=True 且/或 max_features<1.0)称为随机子空间法

随机森林使测量每个特征的相对重要性变得容易。sklearn通过查看使用该特征的树节点平均(森林中所有树上)减少不纯度的程度衡量该特征的重要性。
随机森林非常便于快速了解哪些特征是真正重要的。特别是在需要执行特性选择时。

**提升法(Boosting)**是指可以将几个弱学习器结合成一个强学习器的任意集成方法。大多数提升法的总体思路是循环训练预测器,每次对其前序做出一些改正。
目前流行的是Adaboost和梯度提升。
Adaboost所使用的技术,新预测器对前序进行纠正的方法是更多地关注前序欠拟合的训练实例,从而使新的预测器不断地越来越多专注于难缠的问题。

  • 如当训练adaboost分类器时,该算法首先训练一个基础分类器,并使用它对训练集进行预测。然后,该算法会增加分类错误的训练实例的相对权重。然后,它使用更新后的权重训练第二个分类器,并再次对训练集进行预测。
    更新实例权重。
  • Adaboost与梯度下降差别在于–不再是调整单个预测器的参数使成本函数最小化,而是不断地在集成中加入预测器。

梯度提升也是逐步在集成中添加预测器,每一个都对其前序做出改正。不同之处在于,它不是像Adaboost那样在每个迭代中调整实例权重,而是让新的预测器针对前一个预测器的残差进行拟合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值