特征选择方法


在这里插入图片描述

一、过滤法(Filter)

过滤法选择是一种与模型无关的变量选择方法,从变量的预测能力及对标签的区分能力考虑,常用指标有信息增益、信息增益比、基尼系数、IV值等。

1. 数据缺失情况变量筛选

删除缺失比例过高的变量。

2. 方差变量筛选

3. 预测能力变量筛选

常用指标:信息增益,信息增益比,基尼系数,卡方值等。

4. 基于业务理解的变量筛选(IV值,PSI值)

IV值是从类别角度考虑的,坏样本分布和好样本分布,反映输入变量对标签的预测能力,越大越好

I V = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) log ⁡ ( b a d i / b a d t o t a l g o o d i / g o o d t o t a l ) = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) W O E i \begin{aligned} IV &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})\log (\frac{bad_i/bad_{total}}{good_i/good_{total}}) \\ &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})WOE_i \end{aligned} IV=iM(badi/badtotalgoodi/goodtotal)log(goodi/goodtotalbadi/badtotal)=iM(badi/badtotalgoodi/goodtotal)WOEi

IV值预测水平
x i v < 0.02 x_{iv}<0.02 xiv<0.02无预测能力
0.02 ≤ x i v < 0.1 0.02\leq x_{iv}<0.1 0.02xiv<0.1弱预测能力
0.1 ≤ x i v < 0.3 0.1\leq x_{iv}<0.3 0.1xiv<0.3中等预测能力
x i v ≥ 0.3 x_{iv}\geq 0.3 xiv0.3强预测能力

PSI指标从时间变化角度,反映训练集和测试集的分布, 差异越小越好,同分布最好,PSI值越小越好,模型越稳定。

P S I = ∑ i M ( t r a i n i / t r a i n t o t a l − t e s t i / t e s t t o t a l ) log ⁡ ( t r a i n i / t r a i n t o t a l t e s t i / t e s t t o t a l ) PSI=\sum_i^M (train_i/train_{total}-test_i/test_{total})\log (\frac{train_i/train_{total}}{test_i/test_{total}}) PSI=iM(traini/traintotaltesti/testtotal)log(testi/testtotaltraini/traintotal)

PSI值稳定性水平
x P S I < 0.1 x_{PSI}<0.1 xPSI<0.1稳定性高
0.1 ≤ x P S I < 0.25 0.1\leq x_{PSI}<0.25 0.1xPSI<0.25稳定性中等
x P S I ≥ 0.25 x_{PSI}\geq 0.25 xPSI0.25稳定性低

5. 相关性指标变量筛选

原则:最大相关,最小冗余
即输入变量与预测标签之间尽量相关,输入变量之间减少冗余,消除多重共线问题。根据变量类型,相关性检验方法如下:

XY相关性检验方法
连续变量连续变量相关系数
连续变量\离散变量离散变量\连续变量方差分析
离散变量离散变量卡方检验或IV值

相关性水平表如下:

相关系数相关程度
ρ x y < 0.1 \rho_{xy}<0.1 ρxy<0.1弱相关或无相关
0.1 ≤ ρ x y < 0.4 0.1\leq \rho_{xy}<0.4 0.1ρxy<0.4低相关
0.4 ≤ ρ x y < 0.7 0.4\leq \rho_{xy}<0.7 0.4ρxy<0.7中等相关
0.7 ≤ ρ x y < 1 0.7\leq \rho_{xy}<1 0.7ρxy<1强相关

6. 主成分分析PCA

缺点是:降维之后变量可解释性变差。

二、包装法(Wrapper)

包装法是一种与模型相关的变量选择方法,本质就是用模型做选择
基本思想:在特征空间中随机挑选特征子集,然后选择一个模型,用交叉验证测试不同子集在模型上的表现,评估方法如KS值、AR、AUC、FI等指标。
特征子集构造分为:前向搜索,后向搜索,双向搜索。

常用方法:递归特征消除法(RFE,后向搜索方法)

RFE适合针对那些有权重分配的基分类器(比如逻辑回归),RFE的目标就是在不损失模型性能的前提下,从全集开始不断减少特征子集,直到特征数量合适位置。通过训练之后每个特征的系数权重,然后丢掉那个最不重要的特征, 再在剩下的特征上递归重复上述过程,直到选择所需要数量的特征。

三、嵌入法(Embedding)

嵌入法是模型相关的变量选择方法,常用的嵌入法选择变量方法有:

1. 加入L1正则的模型

损失函数如下:
L = ∑ i = 1 n l ( y i , h ( x i ) ) + α ∑ i = 1 n ∣ w i ∣ L= \sum^n_{i=1}l(y_i,h(x_i)) +\alpha \sum^n_{i=1} |w_i| L=i=1nl(yi,h(xi))+αi=1nwi
从上面的函数可以看出, 在L一定的情况下,要使上面的结果最小,系数 α \alpha α会最小化。

那我们可以利用L1的这个最小化系数的方法来挑选变量,因为不重要的变量的系数会最小化直至为0。

2. 基于树模型的变量选择(随机森林,Xgbosot)

在树构造过程中,特征使用频率越高,越靠近根节点的特征越重要。

3. 在评分卡模型中如果使用逻辑回归模型,也可以做特征选择

结合业务知识,特征分箱后的WOE编码要单调或近似单调,不满足条件的说明特征重要性较低;根据特征的参数大小进行变量选择,参数越小,特征越不重要。

四、一般的变量选择流程

1. 基于IV值进行初步筛选

2. 聚类分析

将不同特征进行聚类得到不同的簇,目的是在接下来的变量选择中,在选择剔除变量时要有簇的概念,优先从不同的簇中删除变量

3. 相关性分析

原则:最大相关最小冗余
计算变量编码后变量之间的相关性,给定阈值进行变量剔除,剔除时要注意在不同的簇中进行选择。相关系数的阈值不能太高,另外,也可以做方差膨胀因子分析,剔除变量。

4. 逐步回归变量选择(包装法)

逐步回归是较好的一种变量选择方法,可以通过前向、后向或双向的方法进行变量选择,常用RFE方法。

5. 随机森林或 Xgboost 模型变量重要性排序,得到最终的变量筛选结果。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值