随机森林基础知识整理笔记

随机森林算法是由多棵CART决策树组合构成的新型机器学习算法。
首先,采用bootstrap抽样技术从原始数据中抽取N个训练集,每个训练集的大小约为原始数据集的2/3;然后,为每个训练集分别建立分类回归树,产生由N棵CART组成的森林,在每棵树生长过程中,从全部M个特征变量中随机抽选m个属性,根据Gini系数最小原则选出最优属性进行内部节点分支;最后,集合N棵决策树的预测结果,采用投票的方式决定新样本的类别;每次抽样约有1/3的数据未被抽中,利用这部分袋外数据(Out-og-bag)进行内部误差估计。
CART: Classification and Regression Tree
分类与回归树属于一种决策树。在该算法中,节点分裂算法采用了基尼不纯度指数(Gini Index)。基尼不纯度指数指随机选中一个样本实例被错分的概率与该样本被选中的概率乘积。如果结点中所有样本实例的类标签都一样,那么基尼不纯度为零。
抽样聚合算法(Bootstrap Aggregating, Bagging)的基本思想是对训练数据样本有放回的抽取(Bootstrap),从而形成大小各不相同的训练数据子集,在每个数据子集上按照属性特征选择方法构建相应的决策树,进而将训练出来的决策树构建成决策森林。
随机子空间方法是一种从视觉数据的属性特征空间内随机又放回抽样分布特征构建决策树结点,然后将所有决策树集成为一个决策树森林的方法。在对某个测试样本分类时,其输出类标签的结果由整个森林中所有的决策树投票决定。
随机森林是一个由多个随机决策树组成的综合分类器系统,并且其输出的类别是根据决策树输出类别标签的众数而定。
随机森林方法可以理解为随机子空间决策森林、随机属性特征选择以及抽样聚合方法的改进方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值