随机森林原理-R语言简单实例

最新推荐文章于 2024-08-07 00:22:51 发布

饭饭认认米

最新推荐文章于 2024-08-07 00:22:51 发布

阅读量2.5w

点赞数 7

分类专栏： R语言文章标签：分类回归

本文链接：https://blog.csdn.net/fanfanrenrenmi/article/details/60768051

版权

随机森林是一种结合了多个决策树的模型，用于分类和回归。在分类中选择最多票数的类别，在回归中取平均值。本文介绍了随机森林的原理，包括Bootstrap抽样、变量选择和树的构建，并探讨了随机森林在回归分析中的优势。通过R语言展示了简单的实现，数据包含连续因变量和多个自变量。

摘要由CSDN通过智能技术生成

随机森林是基于决策树的组合模型，若因变量为分类变量则建立分类判别模型，若为连续变量则建立非线性回归分析模型。随机森林在分类中返回得票数最多的分类选项，在回归中返回所有决策树输出的平均值。随机森林是由多个回归树组合而成的模型，广泛用于分类研究，随机森林回归能够有效的分析非线性、具有共线性和交互作用的数据，效果要优于多元线性回归，并且不需要预先给定模型的形式假定，回归效果比回归树更好。随机森林在实际应用中在分类中效果要优于回归，随机森林不能够作出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。

随机森林回归算法流程
随机森林使用bootstrap重复抽样方法，也称自助法，是一种从给定数据集中有放回均匀抽样，小样本时效果较好。实际操作从原始样本中抽取一定数量样本，允许重复抽样；根据抽出的样本计算给定的统计量；重复上述步骤多次，得到多个计算的统计量结果；由统计量结果得到统计量方差。
1、假设原始样本含量为N，应用bootstrap有放回随机抽取b个自助样本集(一般样本集中样本量越大回归效果越好)，并由此构建b颗回归树，同时未抽取到的数据即袋外数据（OOB）作为随机森林的测试样本；
2、设原始数据变量个数为p，则在每一个回归树的每个节点处随机抽取 $m_0$ 个变量（ $m_0$ < p ）作为备选分枝变量，一般取 $m_0$ =p/3，然后再其中根据分枝优度准则选取最优分枝(同回归树模型建立)；其中分枝优度准则是基于离均差平方和，假设有p个自变量X=（ $X_1$ ， $X_2$ ，…， $X_p$ ）和连续型因变量Y。对于树的某一节点t的样本为{..xn,yn},改节点样本量为N(t),由此可知该节点的的离均差平方和。假定该阶段t内所有可能的分枝集合（含变量和相应的切点）为A，分枝s将节点t分裂为两个子节点 $t_l$ 与 $t_r$ ，其中最佳分枝既为使得t节点的离均差平方和与分裂后的两个子节点对应的离均差平方和之和差距最大的分枝，即分裂后效果优于分裂前，使得各子节点内的变异最小。
3、每棵树开始自顶向下递归分枝，设定叶节点最小尺寸为5，并以此作为回归树生长的终止条件，即当叶节点数目小于5时，停止分枝；
4、将生成的b颗回归树组成随机森林回归模型，回归的效果评价采用带袋外数据（OOB）预测残差均方MSE及拟合优度