数据建模之特征工程

特征工程是一个先升维后降维的过程。升维的过程是结合业务理解尽可能多地加工特征,是一个非常耗时且需要发散思维的过程。变量选择就是降维的过程,对进入模型的变量进行严格的考量,入模变量要与业务强相关且最好不要超过20个(标准评分卡)

变量选择常用的方法

  1. 过滤法(Filter)
  2. 包装法(Wrapper)
  3. 嵌入法(Embedding)

在上述方法中进一步分解又分
单变量选择
多变量选择
有监督选择
无监督选择

衡量变量预测能力的指标

  1. IV值
  2. 信息增益
  3. 信息增益比(信息增益率)
  4. 基尼系数

从相关性角度考虑:要求最大相关、最小冗余,即变量与标签之间要尽可能相关度较高,而变量与变量之间要尽可能没有相关性(相互独立),即没有多重共线性问题。

信息熵

1、过滤法变量选择

与模型无关的变量选择方法
(1)数据缺失情况变量筛选
(2)方差变量筛选
(3)预测能力变量筛选
(4)业务理解变量筛选
IV值的预测能力水平如表所示

IV值预测能力水平
x i v < 0.02 x_{iv}<0.02 xiv<0.02无预测能力
0.02 ⩽ x i v < 0.1 0.02 \leqslant x_{iv} <0.1 0.02xiv<0.1弱预测能力
0.1 ⩽ x i v < 0.3 0.1 \leqslant x_{iv} <0.3 0.1xiv<0.3中等预测能力
0.3 ⩽ x i v 0.3 \leqslant x_{iv} 0.3xiv强预测能力

注意:如果IV值太高,如大于0.5,则要验证一下变量是否存在问题。

I V = ∑ i = 1 M ( t r a i n i / t r a i n t o t a l − t e s t i / t e s t t o t a l ) l o g ( t r a i n i / t r a i n t o t a l t e s t i / t e s t t o t a l ) IV = \sum_{i=1}^M(train_{i}/train_{total}-test_{i}/test_{total}) log\left(\frac{train_{i}/train_{total}}{test_{i}/test_{total}}\right) IV=i=1M(traini/traintotaltesti/testtotal)log(testi/testtotaltraini/traintotal)

其中: M M M为组数; t r a i n i train_{i} traini t e s t i test_{i} testi分别表示第 i i i 组中训练样本和测试样本的数量; t r a i n t o t a l train_{total} traintotal t e s t t o t a l test_{total} testtotal分别为训练样本和测试样本的总数量。

PSI指标是一种模型评估指标,一方面可以用于评估模型上线后预测结果与建模时的结果是否存在偏差;另一方面也可以用于变量选择,衡量变量的稳定性。
PSI值的稳定性水平如表所示

PSI值稳定性水平
x p s i < 0.1 x_{psi}<0.1 xpsi<0.1稳定性高
0.1 ⩽ x p s i < 0.25 0.1 \leqslant x_{psi} <0.25 0.1xpsi<0.25稳定性中等
x p s i ⩾ 0.25 x_{psi} \geqslant 0.25 xpsi0.25稳定性低

K-L距离就是IV值,IV值的本质就是K-L距离。

相关性指标变量筛选
相关系数是计算连续变量之间的相关性

相关性水平

相关系数(绝对值结果)相关程度
ρ x y < 0.1 \rho_{xy}<0.1 ρxy<0.1弱相关或无相关性
0.1 ⩽ ρ x y < 0.4 0.1 \leqslant \rho_{xy} <0.4 0.1ρxy<0.4低度相关
0.4 ⩽ ρ x y < 0.7 0.4 \leqslant \rho_{xy} <0.7 0.4ρxy<0.7中度相关
0.7 ⩽ ρ x y < 1 0.7 \leqslant \rho_{xy} <1 0.7ρxy<1强相关

探究自变量和因变量关系的方法

变量类型相关性判断方法
连续-连续相关分析
连续-离散T检验/方差分析
离散-离散卡方检验

2、包装法变量选择

与模型相关的变量选择方法,即在特征空间中随机挑选特征子集,然后选择一个模型,采用交叉验证的方式测试不同特征子集上模型的表现。

逐步回归方法(SAS或SPSS)

  • 前向搜索
  • 后向搜索
  • 双向搜索

3、嵌入法变量选择

与包装法类似,嵌入法也是一种与模型相关的变量选择方法,不同的是,嵌入法不需要多次构建模型,而是在模型训练时同步完成,不需要采用贪婪的方法构造特征子集并训练多次模型来得到最优变量子空间。
常用的嵌入法变量选择方法有:
(1)加入L1正则的模型
(2)随机森林变量选择

变量选择通常会将多种变量选择的方法进行组合以达到最终的目的,一般过程如下:
(1)基于IV值进行初步筛选
(2)聚类分析
(3)相关性分析
(4)逐步回归
(5)随机森林或Xgboost模型变量重要性排序,得到最终的变量筛选结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值