细说RandomForest

本文详细介绍了随机森林的实现细节,包括out-of-bag(oob)误差计算、特征重要性评估、邻近度矩阵构建、缺失值处理、异常值检测以及类别不平衡问题的处理。随机森林通过oob数据进行模型检验,提供特征重要性,能够有效处理数值缺失,并通过邻近度矩阵识别异常点。此外,随机森林还能通过调整类别权重来应对类别不平衡问题。
摘要由CSDN通过智能技术生成
鉴于csdn上已经有很多优秀的博文对RandomForest做过介绍,在此重复的内容我就不再复述:如随机森林的Bootstrap,features select...
主要结合原论文谈谈RandomForest的实现细节:

1.out-of-bag的计算:
           对于每一颗树来说,大约有1/3的样本会成为这棵树的out-of-bag,随机森林可以利用这部分数据进行模型检验,也就不需要额外的验证集,同时这也被数学证明是模型泛化误差的无偏估计,那么怎么计算这个oob error呢?
           对于每个样本来说,大约有1/3的树的oob包含它,对这些树对该的分类结果进行多数表决,再将预测结果与真实结果比较,然后就可以得到一个全部数据的分类误差,这个就是oob error

2.特征重要性的计算:
           随机森林可以很方便得给出每个特征的重要性,但是如果特征A和B存在很强的关系,也就是说能从A中推出B,那么这样的特征的重要性是没有意义的,因为随机森林往往只会给A一个很高的值,而B就会小很多(为什么会这样呢?大家以GINI系数为出发点,思考下就可以得出结果)
暂且不论上述的缺点,这也是随机森林一个很独特的地方,这里给出2种计算特征重要性的方法:
方法一:
           还是以一棵树为例,记录
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值