Random Forest 学习笔记整理

最新推荐文章于 2023-08-03 09:30:00 发布

Joyce0625

最新推荐文章于 2023-08-03 09:30:00 发布

阅读量8.8k

点赞数 2

分类专栏：算法文章标签：算法 random Forest

本文链接：https://blog.csdn.net/Joyce0625/article/details/24593635

版权

本文详细介绍了随机森林算法的起源、基本思想、优缺点及现状。随机森林是由多棵决策树组成的集合，通过随机抽取样本和特征进行训练，提高了分类的准确性和鲁棒性。在实际应用中，随机森林可用于高维数据处理，但要注意树的数量和样本平衡问题。它在R、Weka和Mahout等工具中已有实现。

摘要由CSDN通过智能技术生成

这篇文章是自己对学习random forest的整理，里面参考了很多其他博主的成果，非常感谢，他们的原文链接详见参考文献。

Random Forest，顾名思义，Random就是随机抽取，Forest就是说这里不止一棵树，而由一群决策树组成的一片森林，连起来就是用随机抽取的方法训练出一群决策树来完成分类任务。

RF用了两次随机抽取，一次是对训练样本的随机抽取；另一次是对变量的随机抽取。这主要是为了解决样本数量有限的问题。

RF的核心是由弱变强思想的运用。每棵决策树由于只用了部分变量、部分样本训练而成，可能单个的分类准确率并不是很高。但是当一群这样的决策树组合起来分别对输入数据作出判断时，可以带来较高的准确率。有点类似于俗语三个臭皮匠顶个诸葛亮。

下面从思想来源、基本思想、优缺点和现状等角度分别来说明一下。

1.思想来源

在说明random forest的算法之前，我先了解了一下它的思想来源，主线条可以由下面这个发展线来表示。

PAC-->Bootstraps-->Bagging-->Random Forest<-- CART

（1）PAC

PAC（Probably Approximately Correct）是由Kearns和Valiant提出的一种学习模型。在该模型中，若存在一个多项式级的学习算法来识别一组概念，并且识别正确率很高，那么这组概念是强学习算法；而如果学习算法识别一组概念的正确率仅比随机猜测略好，那么这组概念是弱学习算法。如果可以将弱学习算法提升成强学习算法，那么我们就只要找到一个弱学习算法，然后把它提升成强学习算法，而不必去找通常情况下很难获得的强学习算法。

(2)Bootstraps

根据PAC由弱得到强的思想，统计学大牛Bradley Efron在1979年提出了Bootstraps算法，这个名字来自于成语“pull up by your own bootstraps”，意思是依靠自己的资源，称为自助法。它的思想就是当样本数量不大，分布情况未知时，可以从原始样本中随机抽取的多个样本情况（弱学习）来估计原样本真实的分布情况。它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其基本步骤如下：
　　①从原始数据集中，有放回地抽样一定数量的样本
　　②根据抽出的样本计算给定的统计量T
　　③重复上述N次（一般大于1000），得到N个统计量T
　　④计算上述N个统计量T的样本方差，得到统计量的方差

这里举例说明其中一种最常用的方法：.632自助法。

假设给定的数据集包含d个样本。该数据集有放回地抽样d次，产生