Random Forest

最新推荐文章于 2023-05-27 14:59:15 发布

lvpyuan

最新推荐文章于 2023-05-27 14:59:15 发布

阅读量851

点赞数

分类专栏：机器学习_分类器文章标签： Random Forest bootstrap Bagging CART machine learning

本文链接：https://blog.csdn.net/lvpyuan/article/details/42747351

版权

Random Forest

Random Forest （随机森林）是指由一群决策树（ decision trees ）生成的森林。为了更好的理解随机森林，有必要提一下它的演化进程。

Random forest 演化进程的主线条主要如下所示：

PAC----->Bootstraps----->Baggging----->Random Forest<-----CART

1.PAC

PAC(Probably Approximately Correct)由Kearns和Valiant提出的一种学习模型。在该模型中，若存在一个多项式级的学习算法来识别一组概念，并且识别正确率很高，那么这组概念是强学习算法；而如果学习算法识别一组概念的正确率仅比随机猜测略好，那么这组概念是弱学习算法。如果可以将弱学习算法提升成强学习算法，那么我们就只要找到一个弱学习算法，然后把它提升成强学习算法，而不必去找通常情况下很难获得的强学习算法。

2·Bootstraps

根据PAC由弱得到强的思想Bradley Efron在1979年提出了Bootstraps算法，这个名字来自于成语“pull up by your own bootstraps”，意思是依靠自己的资源，称为自助法。它的思想就是当样本数量不大，分布情况未知时，可以从原始样本中随机抽取的多个样本情况（弱学习）来估计原样本真实的分布情况。它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其基本步骤如下：
　①从原始数据集中，有放回地抽样一定数量的样本
　②根据抽出的样本计算给定的统计量T
　③重复上述N次（一般大于1000），得到N个统计量T
　④计算上述N个统计量T的样本方差，得到统计量的方差

这里举例说明其中一种最常用的方法：.632自助法。

假设给定的数据集包含d个样本。该数据集有放回地抽样d次，产生d个样本的训练集。（原数据样本中的某些样本很可能在该样本集中出现多次）没有进入该训练集的样本最终形成检验集（测试集）。显然每个样本被选中的概率是1/d，因此未被选中的概率就是(1-1/d)，这样一个样本在训练集中没出现的概率就是d次都未被选中的概率，即(1-1/d)d。当d趋于无穷大时，这一概率就将趋近于e-1=0.368，所以留在训练集中的样本大概就占原来数据集的63.2%。

3·Bagging

最低0.47元/天解锁文章

lvpyuan

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Random Forest

Random ForestRandom Forest（随机森林）是指由一群决策树（decision trees）生成的森林。为了更好的理解随机森林，有必要提一下它的演化进程。Random forest演化进程的主线条主要如下所示：PAC----->Bootstraps----->Baggging----->Random Forest1.PACPAC(Prob
复制链接

扫一扫