随机森林概述

SIGAI_csdn

于 2018-07-25 16:52:14 发布

阅读量6.7k

点赞数 6

分类专栏：机器学习人工智能 AI 文章标签：人工智能机器学习深度学习随机森林

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/81205934

版权

随机森林是一种集成学习算法，由多棵决策树组成，通过Bootstrap抽样和特征随机选择降低模型方差。它在训练时利用包外误差评估模型，能计算变量重要性，广泛应用于分类和回归问题。随机森林通过多棵树的预测结果投票或平均得到最终预测，有效防止过拟合。

摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

在SIGAI之前的公众号文章“大话AdaBoost算法”中我们介绍了集成学习的思想以及Boosting算法，今天的文章中我们将为大家介绍另外一种集成学习算法-随机森林。随机森林由多棵决策树组成，采用多棵决策树联合进行预测可以有效提高模型的精度。这些决策树用对训练样本集随机抽样构造出的样本集训练得到。由于训练样本集由随机抽样构造，因此称为随机森林。随机森林不仅对训练样本进行抽样，还对特征向量的分量随机抽样，在训练决策树时，每次寻找最佳分裂时只使用一部分抽样的特征分量作为候选特征进行分裂。

集成学习

集成学习（ensemble learning）是机器学习中的一种思想，而不是指某一具体算法，它通过多个模型的组合形成一个精度更高的模型，参与组合的模型称为弱学习器（weak learner）。在预测时使用这些弱学习器模型联合进行预测；训练时需要用训练样本集依次训练出这些弱学习器。这种集体决策的例子在我们的日常生活中经常会见到，如医生集体会诊，如果对某一病人的情况拿不定主意，可以让多位医生一起来诊断，用他们各自的诊断结果进行投票，得到最终的诊断结果。因此，集成学习是一种非常符合人类思维习惯的方法。

Bootstrap抽样

在概率论与数理统计中，我们学习过随机抽样的概念，统计学的核心思想是用样本推断整体，即用随机抽取的样本来研究所有样的特征。Bootstrap抽样是一种数据抽样方法，它是构成Bagging算法和随机森林的基础。所谓抽样是指从一个样本数据集中随机抽取一些样本，形成新的数据集。这里有两种选择：有放回抽样和无放回抽样。对于前者，一个样本被抽中之后会放回去，在下次抽样时还有机会被抽中。对于后者，一个样本被抽中之后就从抽样集中去除，下次不会再参与抽样，因此一个样本最多只会被抽中一次。在这里Bootstrap使用的是有放回抽样。我们可以给这种做法一个形象的解释，公司年会抽奖时，有两种做法，第一种是一个人中奖之后不能再继续参与抽奖，这是无放回抽样；否则就是有放回抽样，这会造成运气好的人多次中奖。

Bootstrap抽样的做法是在n个样本的集合中有放回的抽取n个样本形成一个数据集。在这个新的数据集中原始样本集中的一个样本可能会出现多次，也可能不出现。例如，如果有有10个样本，Bootstrap抽样从它们中随机的抽取出10个，下面两种情况都是可能发生的：