随机森林的原理和用随机森林的方式进行特征选择

最新推荐文章于 2024-05-26 09:26:11 发布

学号_Y_1055

最新推荐文章于 2024-05-26 09:26:11 发布

阅读量2.6k

点赞数

本文链接：https://blog.csdn.net/m0_46519036/article/details/108466563

版权

Bagging的策略：
假定给定了N个样本，现在让我们去做决策树，分类器使用ID3，那么现在样本确定了，分类器确定了，这个决策树就是已经确定的。那么如果我们保证每次的数据不一样，就可以生成不同的决策树。那我们如何保证每次的样本数据不一样呢？最直接最有效的方法：首先我们有N个样本，我们给定一个从1-N的随机数，每次随机有放回的随机取一个随机数（也就是说可以重复）并且取N次，我们就得到了一个N个样本的随机数，标位DT1。我们重复前面随机取样的步骤，得到M颗决策树，这样就形成了一个森林。
问题：那么如果给定N个样本，现在有放回的生成N个新样本的时候，可能有一个样本一次都没有被选中过，也可能有一个样本被选中多次。那么被选中过的样本站总样本的多少呢？
假设每个样本每次被选中的概率都是1/N，那么每次没有被选中的概率就是1-1/N，从而得到，N次都没有被选中的概率就是（1-1/N）^N。当N足够大的时候，就是1-1/e，大概是63.2%是独一无二能够进入分类器的，那么百分之36.8%没有参与到决策树的生成。
那么我们把参与到决策树生成的样本叫做bag，剩余的样本我们叫做out of bag（OOB），用OOB来测试决策树的好坏。所以理论上来说，我们都没有必要把样本数据分为训练集和测试集。
其实我们也大可不必把随机生成的新决策树样本数量等于N，可以调整采样率α，把α*N放到新的决策树中。所以新样本的规模没有必要和原始数据一样。
现在假设一共有m个样本，n个特征，我们在去选择某一个特征的时候，把1-n都试一遍，看看哪一个特

最低0.47元/天解锁文章

学号_Y_1055

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
随机森林的原理和用随机森林的方式进行特征选择

Bagging的策略：假定给定了N个样本，现在让我们去做决策树，分类器使用ID3，那么现在样本确定了，分类器确定了，这个决策树就是已经确定的。那么如果我们保证每次的数据不一样，就可以生成不同的决策树。那我们如何保证每次的样本数据不一样呢？最直接最有效的方法：首先我们有N个样本，我们给定一个从1-N的随机数，每次随机有放回的随机取一个随机数（也就是说可以重复）并且取N次，我们就得到了一个N个样本的随机数，标位DT1。我们重复前面随机取样的步骤，得到M颗决策树，这样就形成了一个森林。问题：那么如果给定N个样
复制链接

扫一扫