在envi做随机森林_【转】随机森林选取特征值

随机森林原理随机森林是一种相当简单、容易理解的方法,他的基本原理就是,从原数据集中有放回的采样获得若干个子集,基于每个子集训练出不同的基分类器,再通过基分类器的投票获得最终的分类结果。随机森林采用自助采样法(bootstrap)获得原数据集的子集,先了解自助采样法有助于我们更好的理解随机森林自助采样法给定一个包含 mm 个样本的数据集 DD , 我们对它进行采样产生数据集 D′D′ : 每次随机从...
摘要由CSDN通过智能技术生成

随机森林原理

随机森林是一种相当简单、容易理解的方法,他的基本原理就是,从原数据集中有放回的采样获得若干个子集,基于每个子集训练出不同的基分类器,再通过基分类器的投票获得最终的分类结果。随机森林采用自助采样法(bootstrap)获得原数据集的子集,先了解自助采样法有助于我们更好的理解随机森林

自助采样法

给定一个包含 mm 个样本的数据集 DD , 我们对它进行采样产生数据集 D′D′ : 每次随机从 DD 中挑选出一个样本,将其拷贝放入 D′D′ ,然后再将该样本放回初始数据集 DD 中,使得该样本在下次采样中仍有可能被采到;这个过程重复执行 mm 次以后,我们就得到了包含 mm 个样本的数据集 D′D′,这就是自助采样的结果。显然, DD 中有一部分样本会在 D′D′ 中多次出现,而另一部分样本 不出现。可以做一个简单的估计,样本在 mm 次采样中始终不被采到的概率是 (1−1/m)m(1−1/m)m ,该式取极限得到 1/e=0.3681/e=0.368 ,即通过自助采样,初始数据集 D 中约有 36.8% 的样本未出现在数据集D′D′ 中, 于是我们可以将 D′D′ 作为训练集,而剩下的作为测试集

基于自助采样法随机森林的构建过程为:

从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本,共进行n_tree次采样,生成n_tree个训练集

对于n_tree个训练集,我们分别训练n_tree个决策树模型

对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂

每棵树都一直这样分裂下去&

  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值