aic值检验 p值_Null Importance - 用p值检验特征gbdt模型重要性

最新推荐文章于 2024-04-09 14:19:10 发布

weixin_39681171

最新推荐文章于 2024-04-09 14:19:10 发布

阅读量409

点赞数 3

文章标签： aic值检验 p值 gbdt 回归特征重要性排序 lgb特征重要性 livechart 只显示 y 值 t检验的p值对照表

https://www.kaggle.com/ogrellier/feature-selection-with-null-importanceswww.kaggle.com

这篇文章介绍了利用标签排列组合的方式来进行特征重要性的核验，原理可见这篇文章

用标签排列组合变换的方式来得到特征重要性的原理其实有点像统计线性方程中的p值检验的过程，本质就是看实际标签拟合的重要性与我随机shuffle建模得到的特征重要性差距是否足够显著，我们用如下的步骤来完成这个过程：

数据集用的还是home-default-credit之前已经写了好几个kernal了就不写数据处理过程了，下面直接开始：

import

下面的函数是主体，遍历特征得到特征重要性矩阵：

def

先跑一个bench mark

need

null_imp_df

好了，我们来看看几个强特征的分布

display_distributions

display_distributions

从上面选的几个特征来看的话这种方式的强力之处显然大家都看得出来了：

任何一个特征只要方差够大并且能够给树模型用的话，他总可以找到切分点针对损失函数去做进一步优化。
相关的特征的重要性在树模型中会互相造成影响（比如2个相关的强特征1，2，他们的切分的过程中如果被交替使用的话，那么特征的重要性就会被稀释）。所以我们这个挑选方式的优势就在于：
1. 剔除在建模过程中由于高噪声而被选入模型建模的特征
2. 剔除相关特征在建模过程中特征重要性被稀释的影响。

关注