特征工程
-
选择数据(Select Data): 整合数据,将数据规范化成一个数据集,收集起来.
-
数据预处理(Preprocess Data): 数据格式化,数据清理,采样等。
-
数据转换(Transform Data):这个阶段做特征工程。
- 设计特征:自动特征提取或手工构造
- 选择特征:使用不同的特征选择方法进行特征选择
- 特征监控
- 特征有效性分析:特征重要性(权重)
- 监控重要特征,防止特征质量下降
-
数据建模(Model Data): 建立模型,评估模型并逐步优化。
预处理过程
单个特征
- 归一化
- 离散化
- Dummy coding
- 缺失值
- 数据变换:log、指数、Box Cox
多个特征
- 降维:PCA LDA
- 特征选择:Filter、Wrapper、Embedding