随机决策森林中的 “mean decrease accuracy” 和 “mean decrease gini” 都是什么

最近写的系统需要用到随机决策森林,使用了一份网上的随机决策森林的包,这份代码实现的非常棒,速度非常快。但是遇到一个问题,训练好了一个随机决策森林后,我想知道在训练好的模型中,哪些feature是更具有代表性的,所以我统计了每棵树使用feature的频率,但是发现feature的使用频率都差不多。从频率上无法判断那些特征对模型的影响更大。在代码的实现注释中,我发现了这样两种指标:mean decrease accuracy和mean decrease gini。一直不明白是什么。

mean decrease accuracy

把一个变量的取值变为随机数,随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大。
【摘于李欣海博客】

  • 想象一下,你使用几个特征建立模型,特征中包括性别,目的是来预测一个人喜欢白咖啡还是黑咖啡。
  • 取一个特征并以与特征分布相匹配的方式对其进行扰频(例如,如果选择的特征是性别,并且观察值的60%是男性,则将样本中的60%的样本都随机分配成男性)。
  • 用修改后的样本测量结果树的预测准确性。
  • 对每个变量都做上面三步操作。
  • 平均准确度下降(mean decrease accuracy)是修改前和修改后的下降情况。
  • 请注意,这不是因果关系,在实际使用中,会将重点放在变量的排名上作为进一步调查的数据点,而不是衡量的实际数量。

【摘于Quora】

mean decrease gini

计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性。该值越大表示该变量的重要性越大。【摘于李欣海博客】

  • 13
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
### 回答1: 意思是特征重要性的度量方法之一,它通过在模型随机打乱某个特征的值来计算该特征对模型准确性的影响程度。如果某个特征的重要性得分较高,说明该特征对模型的准确性有较大的影响,反之则说明该特征对模型的准确性影响较小。 ### 回答2: Mean decrease accuracy是指在随机森林(Random Forest),通过计算特征的重要度,来评估每个特征的重要程度。其重要度的计算是基于在每个随机森林决策,每个特征节点在随机化之前和之后所降低的准确性(error)。 在随机森林决策树是独立生成的,每个树的构建过程随机从数据集选择一部分样本集和一部分特征集作为该树的训练集和特征集,这个过程被称为随机化。如果一个特征是十分重要的,则随机化后其准确性降低会非常显著,反之亦然。所以,通过计算随机森林各个特征的平均降低准确性,就可以得到每个特征的重要程度。 Mean decrease accuracy是衡量特征重要性的一种有效方法,可以帮助我们在各种机器学习问题筛选出最重要的特征。在实际应用,一些特征的重要性可能会受到其他因素的影响,如特征之间的相关性等,所以在使用mean decrease accuracy进行特征选择时,需要结合应用场景进行综合评估。 ### 回答3: mean decrease accuracy是指利用特征重要性分析方法对模型进行检验时,通过计算删除特定特征后模型的准确率与原模型准确率之间的差异来判断该特征在模型的重要性程度。常用的特征重要性分析方法包括随机森林决策树等。 在随机森林mean decrease accuracy的计算方法是:首先对原始数据进行随机打乱,然后建立一颗决策树,根据每个特征在当前节点的分裂效果以及样本权重来计算该特征的重要性得分。将所有样本从所有特征那出m个特征进行建树,以此得到决策树的平均特征重要性分,最终将平均特征重要性分乘以建树时所选择特征的数量m即为该特征的mean decrease accuracy分数。 通过计算mean decrease accuracy分数,我们可以了解到哪些特征在模型训练过程的重要性较高,有助于优化特征选择、调试模型等工作。然而,需要注意的是,mean decrease accuracy方法仅适用于基于决策树的模型,对其他类型的模型可能不太适用。此外,在使用mean decrease accuracy时,需要对特征重要性分数进行标准化,避免多个特征之间因量纲不一导致结果不准确的情况发生。 综上,mean decrease accuracy是一种常用的特征重要性分析方法,能够帮助我们理解模型各个特征的重要性程度,对于特征选择、模型优化等方面的工作都有一定的指导意义。
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值