关于特征工程学习材料和直播的总结和理解。
- 一、特征构造的目的(为什么要使用特征工程)
可以增强数据表达、添加先验知识。特征工程一般常常与EDA数据分析结合。数据分析和特征工程有交集,可互为补充。
- 二、特征构造的类别
- 异常处理:
- 通过箱线图(或 3-Sigma)分析删除异常值;
- BOX-COX 转换(处理有偏分布);
- 长尾截断;
- 特征归一化/标准化:
- 标准化(转换为标准正态分布);
- 归一化(抓换到 [0,1] 区间);
- 针对幂律分布,可以采用公式: log(1+x1+median)log(1+x1+median)
- 数据分桶:
- 等频分桶;
- 等距分桶;
- Best-KS 分桶(类似利用基尼指数进行二分类);
- 卡方分桶;
- 缺失值处理:
- 不处理(针对类似 XGBoost 等树模型);
- 删除(缺失数据太多);
- 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;
- 分箱,缺失值一个箱;
- 特征构造:
- 构造统计量特征,报告计数、求和、比例、标准差等;
- 时间特征,包括相对时间和绝对时间,节假日,双休日等;
- 地理信息,包括分箱,分布编码等方法;
- 非线性变换,包括 log/ 平方/ 根号等;
- 特征组合,特征交叉;
- 仁者见仁,智者见智。
- 特征筛选
- 过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法;
- 包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper) ;
- 嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归;
- 降维
- PCA/ LDA/ ICA;
- 特征选择也是一种降维。
在实际分析中,特征工程可以考虑以下5个方面:
1、统计量特征
a) 计数、求和、比例、标准差;
2、时间特征:
a)绝对时间、相对时间、节假日、双休日;
3、地理信息:
a)分桶方法
4、非线性变换:
a) 取log/p平方/根号,来缩小较大的数据差距。
5、数据分桶:
a) 等频/等距分桶,Best-KS分桶,卡方分桶;
6、特征组合/特征交叉
涉及算法,根据题目数据的类型做选择。
- 三、特征构造中的常见问题总结
1、类别不平衡
问题描述:少类别提供信息太少,没有学会如何判别少数类。
解决方法:
1、扩充数据集;
2、尝试其他评价指标:AUC等;
3、调整θ值;
4、重采样:过采样/欠采样;
5、合成样本:SMOTE;
6、选择其他模型、决策树等;
7、加权少类别的样本错分代价;
8、创新:
a) 将大类分解成多个小类;b) 将小类视为异常点,并用异常检测建模。