feature_importances_ - 从决策树到gbdt

最新推荐文章于 2024-06-20 16:16:25 发布

jin_tmac

最新推荐文章于 2024-06-20 16:16:25 发布

阅读量2.1w

点赞数 17

分类专栏： xgboost 文章标签： Python sklearn feature_importance 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jin_tmac/article/details/87939742

版权

xgboost 专栏收录该内容

10 篇文章

订阅专栏

在用sklearn的时候经常用到feature_importances_ 来做特征筛选，那这个属性到底是啥呢。
在这里插入图片描述
分析gbdt的源码发现来源于每个base_estimator的决策树的
feature_importances_

由此发现计算逻辑来源于cython文件，这个文件可以在其github上查看源代码

而在DecisionTreeRegressor和DecisionTreeClassifier的对feature_importances_定义中
在这里插入图片描述
到此决策树的feature_importances_就很清楚了：impurity就是gini值，weighted_n_node_samples 就是各个节点的加权样本数，最后除以根节点nodes[0].weighted_n_node_samples的总样本数。最后还要归一化处理
下面以一个简单的例子来验证下：
在这里插入图片描述

上面是决策树跑出来的结果，来看petal width (cm)就是根节点，
$feature_importance=(112*0.6647-75*0.4956-37*0)/112=0.332825$ ,
petal length (cm)的
$feature_importance=(75*0.4956-39*0.05-36*0.1528)/112=0.26535$
归一化：
$0.332825 / (0.332825 + 0.26535) = 0.5564007189$
$0.26535 / (0.332825 + 0.26535) = 0.4435992811$

忽略图上gini计算的小数位数，计算结果相同。

博客等级

码龄7年

49
原创

207
点赞

627
收藏

118
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

linux常见命令整理
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
xgboost的特征重要性feature_importance计算
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录。
Python模型上线pmml以及自定义函数转换（1）
Sarah_N: 您好，有个问题想咨询下，我看您文章里用的是pmml4.3,但是我看官方文档pmml4.3版本里的内置函数并没有ln1p，那转换后的pmml文件还可以正常预测吗？
Python模型上线pmml以及自定义函数转换（1）
dili_zsh: 学到了，感谢大神
Python模型上线pmml以及自定义函数转换（1）
jin_tmac: 在定义mapper的时候，原本应该这样写： mapper = DataFrameMapper([ (["PB_PerInfo_Sp_MarSta"], ExpressionTransformer("0.137414 if pandas.isnull(X[0]) else (-0.116105 if X[0]=='单身' or X[0]=='已婚' else 0.137414 )"),{"alias":"W_PB_PerInfo_Sp_MarSta"}), ])，但是转pmml文件会报错，这时候你把中文随便改成英文，然后notepad打开，找到这个变量位置，将英文改成中文就可以

大家在看

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。