python随机森林特征重要性_基于随机森林识别特征重要性(翻译)

最新推荐文章于 2024-08-10 07:38:09 发布

weixin_39693438

最新推荐文章于 2024-08-10 07:38:09 发布

阅读量1k

点赞数

文章标签： python随机森林特征重要性

博主SlavIvanov介绍了如何运用随机森林算法来识别SaaS企业的客户流失驱动因素。文章探讨了随机森林的特征重要性评估方法，包括平均不纯度减少(MDI)、平均精确率减少(MDA)以及Boruta算法。MDI和MDA衡量特征对模型误差的减少，而Boruta通过比较特征与影子特征的重要性来确定真正相关的特征。这些方法提供了模型解释性，有助于理解哪些特征对客户留存至关重要。

摘要由CSDN通过智能技术生成

博主Slav Ivanov 的文章《Identifying churn drivers with Random Forests 》部分内容翻译。博主有一款自己的产品RetainKit，用AI和机器学习方法，帮助SaaS相关企业解决客户流失问题。如对他们对产品有兴趣，可以访问下面的链接进行更多了解：https://www.producthunt.com/upcoming/retainkit。

随机森林

随机森林是一个集成算法，通过生成很多棵树，最终以投票或算均值的方式得到结果。这篇文章可视为对随机森林中特征重要性估计的主要方法的回顾。

特征重要性

决策树类算法的特点之一就是有良好的模型解释性。我们可以分析出得到相应结果的数据原因，也可以得到哪些特征比较重要。下面来回顾一下得到这些的主要方法：

1，平均不纯度减少（MDI）：表示每个特征对误差的平均减少程度。《统计学习要素》的作者非常简洁的解释了这种方法：“在每一棵树的每一个分裂中，分裂准则的改进是对分裂变量的重要度量，并分别在森林中的所有树上为每个变量累积。”让我们详细说明一下这段话的意思。如我们所知，决策树根据一些规则，将结点分裂为两个子结点。每次分裂都是针对一个可以使误差最小化的特征。误差的计算可以使均方误差，基尼纯度，信息增益，或者其他一些根据需要设置的指标。我们总结了所有树上，这个特定变量得到的所有分割使误差减少的情况。在sk-learn包中，每次分裂带来的提升效果，是由到达节点的样本数加权得到的，然后对特征的重要性进行归一化处理。值得注意的是，这种方法往往高估了具有许多类别的特性的重要性。这里描述了一种纠正MDI偏置的替代方法。

2，平均精确率减少（MDA）：打乱每个特征的特征值顺序，并且度量顺序变动对模型的精确率的影响。这种巧妙的方法利用袋外数据来计算重要性。OOB数据是训练集的一部分，但不用于训练这种特殊的树。用OOB数据计算出基本误差，然后对每个特征，随机打乱顺序。实际上，这就像用相同的分布使用随机数据替换变量一样，并忽视树对该特性的已有知识。对于不重要的特征来说，打乱顺序对模型的精确率影响不会太大，但是对于重要的特征来说，打乱顺序就会降低模型的精确率。

3，Boruta：重复删除比最佳特征差的特征。主要思想就是检查比随机噪声重要的特征。首先我们要建立影子变量将所有特征混合。这就像在“减少平均精度”中描述的变量打乱一样，但这个方法是同时对所有变量进行操作。我们将影子特征加入到原有特征中，然后用随机森林进行训练。使用上述介绍的MDA或者MDI方法，我们可以看到哪个原始变量比影子变量重要。如果不相关的特征较少，则重要性度量更精确。因此，上述过程重复到预定义的次数，或者直到达到最小特征计数为止。这个算法从最不相关的特征开始删除，因此我们可以用删除顺序作为特征重要性排序。Boruta是一个“相关”的特征选择算法。这与通过确定最佳预测精度得到的最小数据集方法有细微的区别。正如该方法的作者所说的那样：“这个算法尝试找到所有对预测结果有用的特征，而不是找到一个使误差最小的特征集合。”

weixin_39693438

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
python随机森林特征重要性_基于随机森林识别特征重要性(翻译)

博主Slav Ivanov 的文章《Identifying churn drivers with Random Forests 》部分内容翻译。博主有一款自己的产品RetainKit，用AI和机器学习方法，帮助SaaS相关企业解决客户流失问题。如对他们对产品有兴趣，可以访问下面的链接进行更多了解：https://www.producthunt.com/upcoming/retainkit。随...
复制链接

扫一扫