机器学习经典模型:集成学习——bagging

集成学习算法的基本思想是,通过将多个弱学习器组合在一起,从而实现一个效果更好的强学习器。

集成学习的优点可以从三个角度出发进行分析,统计上,单一的学习算法可以理解为在一个假设空间中找到一个最好的假设,但是训练数据较小的时候,学习算法可以找到很多符合训练数据的学习器,最终不论选择哪个学习器,在某种情况下都可能存在严重的偏差,于是就把多个假设集合起来,尽可能降低偏差。

计算上,很多学习算法都可能陷入局部最优,集成算法可以从多个起始点可以进行局部搜索,降低模型陷入局部最优的风险。

表示上,假设空间的任意一个假设都无法近似表示真实的情况,对于不同的假设条件,通过加权的形式扩大假设空间,从而使得学习算法能更进一步逼近真实函数。

集成学习有两种比较经典的分析思路,一种是bagging,每次从训练集中抽取n个训练样本构成子训练集,用于训练不同的学习器,学习器之间相互独立不影响,另一种是boosting,一边训练学习器,一边调整训练集,同时学习器之间也相互调整。

这次先主要谈谈bagging,bagging全称为boostrap aggregating,bootstrap就是统计学那个著名的估计方法,bagging就是利用bootstrap的思想,从训练数据有放回抽样获得n个子数据集,每个数据集独立同分布,然后再利用这n个子数据集训练出n个模型,这n个模型可以相同,也可以各不相同,在预测阶段,同时利用n个模型分析输入,如果是回归问题,则最终输出n个模型输出的平均值,如果是分类问题,则采用投票的方式选出概率最大的类别。

随机森林是bagging思想的具体应用,随机森林由多棵决策树构成,不同的决策树相互独立,具体的实现上,一开始也是利用bootstrap获得n个子数据集,基于这n个子数据集构建n棵决策树,需要注意的是,假设数据包含M个特征,那么构建决策树时只能随机选择m个特征(m小于M),另一方面,构建决策树后不需要剪枝,特征的数量m决定了不同决策树之间的相关性和拟合能力,m越小,树与树之间的相关性越小,可以认为不同的树从不同的角度出发进行分析,使模型的分析更为全面,可是拟合能力也会更弱,所以m是随机森林在构建时的唯一也是重要的参数。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值