特征工程
在介绍特征工程之前,我们先看两张图。
图一是基本的数据挖掘场景
图二是特征工程的常见方法和步骤
特征工程(Feature Engineering)是数据挖掘模型开发中最耗时、最重要的一步。这里简单介绍笔者在模型开发中所总结的一些方法。
特征也就是我们常常说的变量/自变量,一般分为三类:
- 连续型
- 无序类别(离散)型
- 有序类别(离散)型
特征工程(Feature Engineering)包括:特征处理(Feature Processing)、特征选择(Feature Selection)</