特征重要性评估

最新推荐文章于 2024-07-08 03:46:51 发布

Daisy和她的单程车票

最新推荐文章于 2024-07-08 03:46:51 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012513618/article/details/107174226

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1、分类树特征重要性

参考：gbdt、xgb 特征重要性源码解释https://zhuanlan.zhihu.com/p/64759172

importance_type指importance的计算类型；可取值有5个:

weight
权重（某特征在整个树群节点中出现的次数，出现越多，价值就越高）
gain
（某特征在整个树群作为分裂节点的信息增益之和再除以某特征出现的频次）
total_gain
（同上，代码中有介绍，这里total_gain就是gain）
cover和total_cover
cover比较复杂，是指某特征节点样本的二阶导数和再除以某特征出现的频次

原始的get_score()方法只是输出按照weight、gain、cover计算的统计值，为了得到百分比形式，将feature_importance_中特征归一化，分母为所有特征的重要性统计量之和。

注意：xgboost sklearn API在计算特征重要性的时候默认importance_type=“gain”，而原始的get_score方法默认importance_type=“weight”

2、回归树特征重要性

gbdt是根据分裂前后节点的impurity减少量来评估特征重要性；impurity计算和节点的分裂标准是MSE或MAE
步骤：
i 遍历每个节点，该节点对应分裂特征重要性统计量=分裂前impurity减去分裂后左右二叉树impurity之和
ii 计算impurity的差值时，每个impurity都乘以对应权重（分支的样本数）
iii 一个特征在树中可以被用来多次分裂，基于上一步的数据，等同于这里按照特征groupby后对其重要性统计量求和

3、利用SHAP解释Xgboost模型

https://zhuanlan.zhihu.com/p/64799119

Daisy和她的单程车票

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。