一、什么是特征工程
最大限度从数据中提取特征供算法和模型使用。
二、为什么要特征工程
数据和特征决定了机器学习的上界,而模型和算法只是不断逼近这个上界。
三、怎样做特征工程
数据预处理:
1. 无量纲化
2. 标准化
3. 区间缩放法(归一化)
4. 定量特征二值化
5. 定性特征哑编码
6. 缺失值计算
7. 数据变换
特征选择:
1. 特征是否发散
2. 特征与目标的相关性
filter过滤法:
方差选择法、相关系数法、卡方检验法、互信息法
wrapper包装法:
递归特征消除法
embedded集成法:
基于惩罚项的特征选择法
基于树模型的特征选择法
降维:
主成分分析法(PCA)
线性判别分析法(LDA)
四、有什么要注意的点
五、参考文献
特征工程到底是什么?:https://www.zhihu.com/question/29316149
什么是特征工程?如何进行特征工程?:https://blog.csdn.net/qq_39521554/article/details/78877505
特征工程:https://www.jianshu.com/p/7066558bd386
特征工程的概述:https://www.cnblogs.com/datasnail/p/9617480.html
什么是特征工程? // 初识数值型特征工程技术:https://zhuanlan.zhihu.com/p/63249766
【特征工程】呕心之作——深度了解特征工程:https://www.it610.com/article/1289244844304179200.htm
细说:特征工程 - Feature Engineering:https://blog.csdn.net/m0_38024592/article/details/80836217
百面-特征工程:https://www.yuque.com/cnzero/agonul/lrdsgh
一文读懂特征工程:https://segmentfault.com/a/1190000024522693?utm_source=tag-newest
七种常用特征工程:http://www.dataguru.cn/article-9861-1.html