Random Forest

Random Forest

Random Forest (随机森林)是指由一群决策树( decision trees )生成的森林。为了更好的理解随机森林,有必要提一下它的演化进程。
Random forest 演化进程的主线条主要如下所示:

PAC----->Bootstraps----->Baggging----->Random Forest<-----CART

1.PAC

PAC(Probably Approximately Correct)Kearns和Valiant提出的一种学习模型。在该模型中,若存在一个多项式级的学习算法来识别一组概念,并且识别正确率很高,那么这组概念是强学习算法;而如果学习算法识别一组概念的正确率仅比随机猜测略好,那么这组概念是弱学习算法。如果可以将弱学习算法提升成强学习算法,那么我们就只要找到一个弱学习算法,然后把它提升成强学习算法,而不必去找通常情况下很难获得的强学习算法。

2·Bootstraps

根据PAC由弱得到强的思想Bradley Efron在1979年提出了Bootstraps算法,这个名字来自于成语“pull up by your own bootstraps”,意思是依靠自己的资源,称为自助法。它的思想就是当样本数量不大,分布情况未知时,可以从原始样本中随机抽取的多个样本情况(弱学习)来估计原样本真实的分布情况。它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其基本步骤如下:
 ①从原始数据集中,有放回地抽样一定数量的样本
 ②根据抽出的样本计算给定的统计量T
 ③重复上述N次(一般大于1000),得到N个统计量T 
 ④计算上述N个统计量T的样本方差,得到统计量的方差

这里举例说明其中一种最常用的方法:.632自助法。

 假设给定的数据集包含d个样本。该数据集有放回地抽样d次,产生d个样本的训练集。(原数据样本中的某些样本很可能在该样本集中出现多次)没有进入该训练集的样本最终形成检验集(测试集)。显然每个样本被选中的概率是1/d,因此未被选中的概率就是(1-1/d),这样一个样本在训练集中没出现的概率就是d次都未被选中的概率,即(1-1/d)d。当d趋于无穷大时,这一概率就将趋近于e-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。

3·Bagging

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值