机器学习——随机森林原理及Python实现

最新推荐文章于 2024-08-07 00:22:51 发布

qq_27758151

最新推荐文章于 2024-08-07 00:22:51 发布

阅读量3k

点赞数 6

分类专栏：机器学习 python 文章标签：机器学习 python 随机森林

本文链接：https://blog.csdn.net/qq_27758151/article/details/126583849

版权

一、理论

1.随机森林介绍

从直观角度来解释，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。
在这里插入图片描述

1.1 随机森林中“树”的生成

每棵树的按照如下规则生成：

1.一个样本容量为N的样本，有放回的抽取N次，每次抽取1个，最终形成了N个样本。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。
2.当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。
3.决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了），一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
4.按照步骤1~3建立大量的决策树，这样就构成了随机森林了。
这里有两个问题：

Problem1 ：为什么要随机抽样训练集？
如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的，这样的话完全没有bagging的必要；

Problem2：为什么要有放回地抽样？

如果不放回抽样，每棵树用的样本完全不同，结果是有偏的，基学习器之间的相似性小，投票结果差，模型偏差大
如果不抽样，基学习器用所有样本，那么模型的泛化能力弱，基学习器之前相似性太大差异性太小，模型的偏差大
在这里插入图片描述