特征衍生
特征衍生是现有的特征进行某种组合,生成新的具有含义的特征。一般情况下,对于给的数据中,缺少必要的条件,我们需要将已知的特征进行组合,然后得到新的特征,这样能够让我们对数据的认识更加清晰。
查看怎么样才能使用到我们的任务中
特征选择
对于总体的特征选择来说,主要可以划分为三种选择方法
- 过滤法:按照发散性或者相关性对各个特征进行评分,设定阈值,选择特征。
常见的过滤方式包括方差分析、相关系数、假设检验、互信息等
2. 包装法:根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
3. 嵌入法:先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。
1.IV值进行特征选择
1.1 基本介绍
在二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。
IV 值的取值范围是[0, ),其大小表示该变量预测能力的强弱。通常认为:
IV值 预测能力
<0.02 无用特征
0.02-0.1 弱预测
0.1-0.3 中等预测
0.3-0.5 强预测
0.5 可疑特征
一般选择中等和强预测能力的变量用于模型开发。
1.2 计算公式
1)WO