要理解特征工程,首先要理解数据(Data)和特征(Feature)的概念
概念
-
特征工程(Feature Engineering)
- 其本质上是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。
特征工程在数据挖掘中有举足轻重的位置
数据领域一致认为:数据和特征决定了机器学习的上限,而模型和算法只能逼近这个上限而已。
-
特征工程重要性:
-
特征越好,灵活性越强;
-
特征越好,模型越简单;
-
特征越好,性能越出色;
-
好特征即使使用一般的模型,也能得到很好的效果!好特征的灵活性在于它允许你可以选择不复杂的模型,同时,运行速度也更快,也更容易理解和维护。
好的特征,即使参数不是最优解,模型性能也能表现很好,因此,不需要太多时间去寻找最优参数,大大的降低了模型的复杂度,使模型趋向简单。
模型的性能包括模型的效果,执行的效率及模型的可解释性。特征工程的最终目的就是提升模型的性能。
数据科学家通过总结和归纳,把特征工程划分为以下三个部分:
-
特征工程包括:
-
数据处理
-
特征选择
-
维度压缩
-
数据处理
数据处理的常用技巧
-
量纲不一
-
虚拟变量
-
缺失值填充
数据处理——量纲不一
-
量纲:就是单位,特征的单位不一致,特征就不能放在一起比较。
-
解决量纲不一致的方法:标准化
-
0-1标准化
-
Z标准化
-
Normalizer归一化
-
0-1标准化
是对原始数据进行线性变换,将特征值映射成区间为[0,1]的标准值中: