随机森林算法原理_集成算法,随机森林和梯度增强机

集成算法 (Ensemble methods)集成类算法是一个较大的概念,其主要原理在于组合一系列较弱的分类算法形成一个新的算法。根据PAC理论框架,新算法的效果一定会得到提升。比如对一个分类问题,我们首先采用不同的简单算法进行分类,比如之前介绍的逻辑回归和决策树等算法。然后所有简单的算法的分类结果再进行投票,从而决定最终的分类结果。集成算法常用的策略有两类:Bagging和Boosti...
摘要由CSDN通过智能技术生成

fa1111df2022427b27659df77cdd601a.png

  1. 集成算法 (Ensemble methods)

集成类算法是一个较大的概念,其主要原理在于组合一系列较弱的分类算法形成一个新的算法。根据PAC理论框架,新算法的效果一定会得到提升。比如对一个分类问题,我们首先采用不同的简单算法进行分类,比如之前介绍的逻辑回归和决策树等算法。然后所有简单的算法的分类结果再进行投票,从而决定最终的分类结果。

集成算法常用的策略有两类:Bagging和Boosting。

Bagging的运用过程描述如下:

  • 假设原始数据有n个数据点,我们首先从原始训练数据抽取多个训练集,每个训练集的样本大小同样为n。每一次从原始数据集中使用Bootstrapping(即有放回的抽样)得到n个数据点。一共进行k轮抽取,从而得到k个不完全相同的测试样本集。需要注意的是正是因为使用了有放回的抽样,每一个bootstrap 训练集里面有可能有数据点相同,但同时每一个bootstrap 训练集里,平均而言,会有36.8%的原始数据缺失。正是这个特点保证了每一个得到bootstrap训练集,虽然样本大小和原始数据相同,但他们和原始样本平均而言有36.8%的不同,并且彼此之间也不会完全相同。36.8%的得出是基于一个简单的概率计算。对于原始数据中的任意一个数据点,每一次不被抽中的概率为1-1/n

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值