集成学习

投票分类器:

训练多个分类器,如:逻辑回归、支持向量、决策树、最邻近等,进行分类时几个分类器投票,得票最多的类为最终输出(这种方法被称为硬投票方式)。如果以上几个分类器都能输出概率,则可以将他们的结果进行概率平均(这种方法被称为软投票方式),这样效果会略好于直接投票。

bagging和pasting:

bagging(自举汇聚法)是bootstrap aggregating的缩写,是一种有放回式随机采样方法,它也可以对特征进行随机采样(对训练样本和特征都进行随机采样被称为Random Patches,随即森林就是这样的)。pasting就是无放回式随机采样,其他与bagging无差别。

因bagging中每个分类器都有一部分样本没用到,所以可以把这部分样本作为测试集,不需要额外准备测试集了,非常方便,这叫“外包评估”。

随机森林

随机森林就是bagging版(当然也有pasting版的)的决策树,它每棵树都是使用的随机训练样本和特征,阈值常设置为63%。

极端随机树:

极端随机树是更特殊的随机森林,首先它没有bagging的过程,它每棵树都是用的全部的训练样本和特征,但它的每棵决策树在进行分叉时,都是选的随机的特征,并选择随机的分叉阈值,它的训练速度比随机森林快得多,有的时候泛化能力更强。

 

决策树和随机森林都可以用来评估特征对模型的重要性,因为重要的特征往往会被先用来分叉(重要特征靠近根节点,而垃圾特征靠近叶节点,甚至都不会被用到),通常在训练完模型后,我们就可以以此评估特征重要性了,通常是用的百分数占比表示重要性,所有特征的重要性之和为1。

 

提升法:

AdaBoost(算法很简单,但是书上的描述有待验证,之后补充)

倾向将多个弱分类器串行组合为强分类器,第一个分类器训练完后,对训练集进行分类,将错分的点权重增大,再把修改完权重的原样本集用第二个分类器进行训练,以此类推,在训练完模型后进行预测时,也要给每个串行的分类器以权重,最后加权得到分类结果,同样也分为硬投票和软投票。

Gradient Boosting(梯度提升法):

也是串行弱分类器,以梯度提升回归树(这是做回归的)为例(不知道用于分类任务的是什么样子),他将上一个模型的残差(就是把原本的y换成该模型的残差)与训练样本结合拿给下一个模型训练。该方法与梯度下降法有点像,应注应用早期停止法打断,即每训练好一个模型(每增加一个模型,比如从100个串行模型变为101个的时候)就拿去测试一次,在过拟合(虽然在训练集上代价函数还在变小,但在测试集上代价函数开始增大,或是没有明显变化了)开始、或精度已不会明显上升的时候就终止训练。

 

bagging系列方法实际上是在牺牲偏差减小方差,bagging实际上是把强分类器(易过拟合的分类器)削弱的集成方法;而提升法系列实际上是增强弱分类器(易欠拟合)的方法。bagging常用于决策树系列和神经网络系列,因是一种并行的方法,得到广泛的应用;提升法因必须是串行结果,所以可能凉凉?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值