【算法】关于xgboost特征重要性的评估

本文介绍了xgboost中特征重要性评估的原理,重点解析了gain、cover和freq三个指标。通过gain计算每个特征的相对贡献,cover衡量特征涉及观测的相对数量,freq表示特征在树中出现的频率。增益是评估特征相对重要性的关键,文章通过源码分析和实例解释了如何计算和使用这些指标。
摘要由CSDN通过智能技术生成

xgboost很好用,但是很多同学对它特征重要性评估的原理不太明白。今天简单梳理下:

在这里插入图片描述

特征重要性函数

调用xgb.feature_importances_函数,即可求出各个特种的重要性,这是我们的目标。
现在就来探究一下,这个feature_importances是怎么得到的。
在这里插入图片描述
那么重要性指标到底是如何评价的呢?进入feature_importances_,可以看到:
①求每个特征对应的score
②把每个特征得到的score/sum(score)
大概思路如此。
在这里插入图片描述
那么,现在就要知道,这个score到底是怎么求得的?

此时,我们需要知道,特征重要性指标评估三种常用的方式:

gain 增益意味着相应的特征对通过对模型中的每个树采取每个特征的贡献而计算出的模型的相对贡献。与其他特征相比,此度量值的较高值意味着它对于生成预测更为重要。

cover 覆盖度量指的是与此功能相关的观测的相对数量。例如,如果您有100个观察值࿰

  • 39
    点赞
  • 164
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值