算法之路--随机森林

最新推荐文章于 2022-12-15 16:10:07 发布

谁能告诉我怎么取网名

最新推荐文章于 2022-12-15 16:10:07 发布

阅读量439

点赞数

分类专栏：深度学习分类算法文章标签：算法随机森林大白话

本文链接：https://blog.csdn.net/qq_20073741/article/details/103537438

版权

深度学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

分类算法

4 篇文章 0 订阅

订阅专栏

一：什么是随机森林

随机森林顾名思义，是用随机的方式建立一个森林，森林里面由很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类

二：随机森林的优缺点

优点

它可以出来很高维度（特征很多）的数据，并且不用降维，无需做特征选择
它可以判断特征的重要程度
可以判断出不同特征之间的相互影响
不容易过拟合
训练速度比较快，容易做成并行方法
实现起来比较简单
对于不平衡的数据集来说，它可以平衡误差。
如果有很大一部分的特征遗失，仍可以维持准确度。

缺点

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的
模型训练和预测都比较慢

三：原理

随机森林，指的是利用多棵树对样本进行训练并预测的一种分类器。简单来说，随机森林就是由多棵CART（Classification And Regression Tree）构成的。对于每棵树，它们使用的训练集是从总的训练集中有放回采样出来的，这意味着，总的训练集中的有些样本可能多次出现在一棵树的训练集中，也可能从未出现在一棵树的训练集中。在训练每棵树的节点时，使用的特征是从所有特征中按照一定比例随机地无放回的抽取的，假设总的特征数量为M，这个比例可以是sqrt(M),1/2sqrt(M),2sqrt(M)。