特征选择方法

最新推荐文章于 2023-06-20 23:27:29 发布

小·幸·运

最新推荐文章于 2023-06-20 23:27:29 发布

阅读量856

点赞数

分类专栏：评分卡模型机器学习

本文链接：https://blog.csdn.net/vir_lee/article/details/115767631

版权

机器学习同时被 2 个专栏收录

14 篇文章 1 订阅

订阅专栏

评分卡模型

6 篇文章 0 订阅

订阅专栏

文章目录

一、过滤法（Filter）

过滤法选择是一种与模型无关的变量选择方法，从变量的预测能力及对标签的区分能力考虑，常用指标有信息增益、信息增益比、基尼系数、IV值等。

1. 数据缺失情况变量筛选

删除缺失比例过高的变量。

2. 方差变量筛选

3. 预测能力变量筛选

常用指标：信息增益，信息增益比，基尼系数，卡方值等。

4. 基于业务理解的变量筛选（IV值，PSI值）

IV值是从类别角度考虑的，坏样本分布和好样本分布，反映输入变量对标签的预测能力，越大越好。

$\begin{aligned} IV &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})\log (\frac{bad_i/bad_{total}}{good_i/good_{total}}) \\ &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})WOE_i \end{aligned}$

IV值	预测水平
$x_{iv}<0.02$	无预测能力
$0.02\leq x_{iv}<0.1$	弱预测能力
$0.1\leq x_{iv}<0.3$	中等预测能力
$x_{iv}\geq 0.3$	强预测能力

PSI指标从时间变化角度，反映训练集和测试集的分布，差异越小越好，同分布最好，PSI值越小越好，模型越稳定。

$PSI=\sum_i^M (train_i/train_{total}-test_i/test_{total})\log (\frac{train_i/train_{total}}{test_i/test_{total}})$

PSI值	稳定性水平
$x_{PSI}<0.1$	稳定性高
$0.1\leq x_{PSI}<0.25$	稳定性中等
$x_{PSI}\geq 0.25$	稳定性低

5. 相关性指标变量筛选

原则：最大相关，最小冗余
即输入变量与预测标签之间尽量相关，输入变量之间减少冗余，消除多重共线问题。根据变量类型，相关性检验方法如下：

X	Y	相关性检验方法
连续变量	连续变量	相关系数
连续变量\离散变量	离散变量\连续变量	方差分析
离散变量	离散变量	卡方检验或IV值

相关系数	相关程度
$\rho_{xy}<0.1$	弱相关或无相关
$0.1\leq \rho_{xy}<0.4$	低相关
$0.4\leq \rho_{xy}<0.7$	中等相关
$0.7\leq \rho_{xy}<1$	强相关

6. 主成分分析PCA

缺点是：降维之后变量可解释性变差。

二、包装法（Wrapper）

包装法是一种与模型相关的变量选择方法，本质就是用模型做选择
基本思想：在特征空间中随机挑选特征子集，然后选择一个模型，用交叉验证测试不同子集在模型上的表现，评估方法如KS值、AR、AUC、FI等指标。
特征子集构造分为：前向搜索，后向搜索，双向搜索。

常用方法：递归特征消除法（RFE，后向搜索方法）

RFE适合针对那些有权重分配的基分类器（比如逻辑回归），RFE的目标就是在不损失模型性能的前提下，从全集开始不断减少特征子集，直到特征数量合适位置。通过训练之后每个特征的系数权重，然后丢掉那个最不重要的特征，再在剩下的特征上递归重复上述过程，直到选择所需要数量的特征。

三、嵌入法（Embedding）

嵌入法是模型相关的变量选择方法，常用的嵌入法选择变量方法有：

1. 加入L1正则的模型

损失函数如下：
$\sum^n_{i=1}l(y_i,h(x_i)) +\alpha \sum^n_{i=1} |w_i|$
从上面的函数可以看出，在L一定的情况下，要使上面的结果最小，系数 $\alpha$ 会最小化。

那我们可以利用L1的这个最小化系数的方法来挑选变量，因为不重要的变量的系数会最小化直至为0。

2. 基于树模型的变量选择（随机森林，Xgbosot）

在树构造过程中，特征使用频率越高，越靠近根节点的特征越重要。

3. 在评分卡模型中如果使用逻辑回归模型，也可以做特征选择

结合业务知识，特征分箱后的WOE编码要单调或近似单调，不满足条件的说明特征重要性较低；根据特征的参数大小进行变量选择，参数越小，特征越不重要。

四、一般的变量选择流程

1. 基于IV值进行初步筛选

2. 聚类分析

将不同特征进行聚类得到不同的簇，目的是在接下来的变量选择中，在选择剔除变量时要有簇的概念，优先从不同的簇中删除变量

3. 相关性分析

原则：最大相关最小冗余
计算变量编码后变量之间的相关性，给定阈值进行变量剔除，剔除时要注意在不同的簇中进行选择。相关系数的阈值不能太高，另外，也可以做方差膨胀因子分析，剔除变量。

4. 逐步回归变量选择（包装法）

逐步回归是较好的一种变量选择方法，可以通过前向、后向或双向的方法进行变量选择，常用RFE方法。

5. 随机森林或 Xgboost 模型变量重要性排序，得到最终的变量筛选结果。

小·幸·运

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
特征选择方法

文章目录一、过滤法（Filter）1. 数据缺失情况变量筛选2. 方差变量筛选3. 预测能力变量筛选4. 基于业务理解的变量筛选（IV值，PSI值）5. 相关性指标变量筛选6. 主成分分析PCA二、包装法（Wrapper）常用方法：递归特征消除法（RFE，后向搜索方法）三、嵌入法（Embedding）1. 加入L1正则的模型2. 基于树模型的变量选择（随机森林，Xgbosot）3. 在评分卡模型中如果使用逻辑回归模型，也可以做特征选择四、一般的变量选择流程1. 基于IV值进行初步筛选2. 聚类分析3. 相关
复制链接

扫一扫