随机森林基础知识整理笔记

最新推荐文章于 2024-04-28 07:53:19 发布

lanhuaner

最新推荐文章于 2024-04-28 07:53:19 发布

阅读量493

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/lanhuaner/article/details/119846902

版权

随机森林是一种集成学习方法，通过bootstrap抽样和特征随机选择构建多棵CART决策树。每个决策树使用bagging方法生成，最后通过投票决定分类结果。该算法利用未被抽中的数据进行内部误差估计，适用于多类分类和回归问题。随机森林由Leo Breiman和Adele Cutler提出，结合了Bagging、CART和特征随机选取的思想。

摘要由CSDN通过智能技术生成

随机森林算法是由多棵CART决策树组合构成的新型机器学习算法。
首先，采用bootstrap抽样技术从原始数据中抽取N个训练集，每个训练集的大小约为原始数据集的2/3；然后，为每个训练集分别建立分类回归树，产生由N棵CART组成的森林，在每棵树生长过程中，从全部M个特征变量中随机抽选m个属性，根据Gini系数最小原则选出最优属性进行内部节点分支；最后，集合N棵决策树的预测结果，采用投票的方式决定新样本的类别；每次抽样约有1/3的数据未被抽中，利用这部分袋外数据（Out-og-bag）进行内部误差估计。
CART: Classification and Regression Tree
分类与回归树属于一种决策树。在该算法中，节点分裂算法采用了基尼不纯度指数（Gini Index）。基尼不纯度指数指随机选中一个样本实例被错分的概率与该样本被选中的概率乘积。如果结点中所有样本实例的类标签都一样，那么基尼不纯度为零。
抽样聚合算法（Bootstrap Aggregating, Bagging）的基本思想是对训练数据样本有放回的抽取（Bootstrap），从而形成大小各不相同的训练数据子集，在每个数据子集上按照属性特征选择方法构建相应的决策树，进而将训练出来的决策树构建成决策森林。
随机子空间方法是一种从视觉数据的属性特征空间内随机又放回抽样分布特征构建决策树结点，然后将所有决策树集成为一个决策树森林的方法。在对某个测试样本分类时，其输出类标签的结果由整个森林中所有的决策树投票决定。
随机森林是一个由多个随机决策树组成的综合分类器系统，并且其输出的类别是根据决策树输出类别标签的众数而定。
随机森林方法可以理解为随机子空间决策森林、随机属性特征选择以及抽样聚合方法的改进方法。