xgboost和随机森林特征重要性计算方法

最新推荐文章于 2025-04-03 13:35:14 发布

ASKED_2019

最新推荐文章于 2025-04-03 13:35:14 发布

阅读量3.8k

点赞数 1

分类专栏： MACHINE LEARNING

本文链接：https://blog.csdn.net/weixin_42223090/article/details/113869675

版权

MACHINE LEARNING 专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了随机森林中特征重要性的计算方法，基于不纯度（Gini指数）的衡量标准，以及如何进行归一化处理。对于分类问题使用Gini不纯度，回归问题则采用MSE或MAE。通过分析，帮助读者理解随机森林与XGBoost在特征选择上的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随机森林中特征重要性和xgboost不同：

随机森林中的特征重要性主要是基于不纯度（也可以叫做Gini importance）：

计算某一个节点不纯度为
在这里插入图片描述
其中， $\omega_k$ , $\omega_{left}$ , $\omega_{right}$ 分别为节点 k以及其左右子节点中训练样本个数与总训练样本数目的比例， $G_k$ , $G_{left}$ , $G_{right}$ 分为为节点 k 以及其左右子节点的不纯度。
节点不纯度计算完成后，计算某个Feature的不纯度为
在这里插入图片描述
另外，为了使所有feature的重要性加起来等于1，需要每一feature的重要性进行normalization：

对于分类问题的话，就是gini不纯度
对于回归问题的话，MSE(Mean Square error)或者MAE(Mean absolute error)

sklearn中的解释
 sklearn源码

参考文章：
https://blog.csdn.net/gracejpw/article/details/102611273
https://zhuanlan.zhihu.com/p/52052903
https://mljar.com/blog/feature-importance-in-random-forest/