一、过滤法(Filter)
过滤法选择是一种与模型无关的变量选择方法,从变量的预测能力及对标签的区分能力考虑,常用指标有信息增益、信息增益比、基尼系数、IV值等。
1. 数据缺失情况变量筛选
删除缺失比例过高的变量。
2. 方差变量筛选
3. 预测能力变量筛选
常用指标:信息增益,信息增益比,基尼系数,卡方值等。
4. 基于业务理解的变量筛选(IV值,PSI值)
IV值是从类别角度考虑的,坏样本分布和好样本分布,反映输入变量对标签的预测能力,越大越好。
I V = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) log ( b a d i / b a d t o t a l g o o d i / g o o d t o t a l ) = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) W O E i \begin{aligned} IV &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})\log (\frac{bad_i/bad_{total}}{good_i/good_{total}}) \\ &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})WOE_i \end{aligned} IV=i∑M(badi/badtotal−goodi/goodtotal)log(goodi/goodtotalbadi/badtotal)=i∑M(badi/badtotal−goodi/goodtotal)WOEi
IV值 | 预测水平 |
---|---|
x i v < 0.02 x_{iv}<0.02 xiv<0.02 | 无预测能力 |
0.02 ≤ x i v < 0.1 0.02\leq x_{iv}<0.1 0.02≤xiv<0.1 | 弱预测能力 |
0.1 ≤ x i v < 0.3 0.1\leq x_{iv}<0.3 0.1≤xiv<0.3 | 中等预测能力 |
x i v ≥ 0.3 x_{iv}\geq 0.3 xiv≥0.3 | 强预测能力 |
PSI指标从时间变化角度,反映训练集和测试集的分布, 差异越小越好,同分布最好,PSI值越小越好,模型越稳定。
P S I = ∑ i M ( t r a i n i / t r a i n t o t a l − t e s t i / t e s t t o t a l ) log ( t r a i n i / t r a i n t o t a l t e s t i / t e s t t o t a l ) PSI=\sum_i^M (train_i/train_{total}-test_i/test_{total})\log (\frac{train_i/train_{total}}{test_i/test_{total}}) PSI=i∑M(traini/traintotal−testi/testtotal)log(testi/testtotaltraini/traintotal)
PSI值 | 稳定性水平 |
---|---|
x P S I < 0.1 x_{PSI}<0.1 xPSI<0.1 | 稳定性高 |
0.1 ≤ x P S I < 0.25 0.1\leq x_{PSI}<0.25 0.1≤xPSI<0.25 | 稳定性中等 |
x P S I ≥ 0.25 x_{PSI}\geq 0.25 xPSI≥0.25 | 稳定性低 |
5. 相关性指标变量筛选
原则:最大相关,最小冗余
即输入变量与预测标签之间尽量相关,输入变量之间减少冗余,消除多重共线问题。根据变量类型,相关性检验方法如下:
X | Y | 相关性检验方法 |
---|---|---|
连续变量 | 连续变量 | 相关系数 |
连续变量\离散变量 | 离散变量\连续变量 | 方差分析 |
离散变量 | 离散变量 | 卡方检验或IV值 |
相关性水平表如下:
相关系数 | 相关程度 |
---|---|
ρ x y < 0.1 \rho_{xy}<0.1 ρxy<0.1 | 弱相关或无相关 |
0.1 ≤ ρ x y < 0.4 0.1\leq \rho_{xy}<0.4 0.1≤ρxy<0.4 | 低相关 |
0.4 ≤ ρ x y < 0.7 0.4\leq \rho_{xy}<0.7 0.4≤ρxy<0.7 | 中等相关 |
0.7 ≤ ρ x y < 1 0.7\leq \rho_{xy}<1 0.7≤ρxy<1 | 强相关 |
6. 主成分分析PCA
缺点是:降维之后变量可解释性变差。
二、包装法(Wrapper)
包装法是一种与模型相关的变量选择方法,本质就是用模型做选择
基本思想:在特征空间中随机挑选特征子集,然后选择一个模型,用交叉验证测试不同子集在模型上的表现,评估方法如KS值、AR、AUC、FI等指标。
特征子集构造分为:前向搜索,后向搜索,双向搜索。
常用方法:递归特征消除法(RFE,后向搜索方法)
RFE适合针对那些有权重分配的基分类器(比如逻辑回归),RFE的目标就是在不损失模型性能的前提下,从全集开始不断减少特征子集,直到特征数量合适位置。通过训练之后每个特征的系数权重,然后丢掉那个最不重要的特征, 再在剩下的特征上递归重复上述过程,直到选择所需要数量的特征。
三、嵌入法(Embedding)
嵌入法是模型相关的变量选择方法,常用的嵌入法选择变量方法有:
1. 加入L1正则的模型
损失函数如下:
L
=
∑
i
=
1
n
l
(
y
i
,
h
(
x
i
)
)
+
α
∑
i
=
1
n
∣
w
i
∣
L= \sum^n_{i=1}l(y_i,h(x_i)) +\alpha \sum^n_{i=1} |w_i|
L=i=1∑nl(yi,h(xi))+αi=1∑n∣wi∣
从上面的函数可以看出, 在L一定的情况下,要使上面的结果最小,系数
α
\alpha
α会最小化。
那我们可以利用L1的这个最小化系数的方法来挑选变量,因为不重要的变量的系数会最小化直至为0。
2. 基于树模型的变量选择(随机森林,Xgbosot)
在树构造过程中,特征使用频率越高,越靠近根节点的特征越重要。
3. 在评分卡模型中如果使用逻辑回归模型,也可以做特征选择
结合业务知识,特征分箱后的WOE编码要单调或近似单调,不满足条件的说明特征重要性较低;根据特征的参数大小进行变量选择,参数越小,特征越不重要。
四、一般的变量选择流程
1. 基于IV值进行初步筛选
2. 聚类分析
将不同特征进行聚类得到不同的簇,目的是在接下来的变量选择中,在选择剔除变量时要有簇的概念,优先从不同的簇中删除变量
3. 相关性分析
原则:最大相关最小冗余
计算变量编码后变量之间的相关性,给定阈值进行变量剔除,剔除时要注意在不同的簇中进行选择。相关系数的阈值不能太高,另外,也可以做方差膨胀因子分析,剔除变量。
4. 逐步回归变量选择(包装法)
逐步回归是较好的一种变量选择方法,可以通过前向、后向或双向的方法进行变量选择,常用RFE方法。