特征工程的主要目标是从算法中获得最好的结果,今天小普从以下7个步骤,让大家了解机器学习算法特征工程的分步过程,如果你觉得有帮助的话,记得给小普点赞支持一下吧,小普又充满了动力~
- 特征选择
- 处理缺失值
- 处理不平衡的数据
- 处理异常值
- 分档
- 编码
- 特征缩放
1.特征选择
特征选择是对所需的独立特征的选择。选择与依赖特征有更多关系的独立特征将有助于建立一个好的模型。一般做好特征选择有以下几种方法:
2.1 与热图的相关矩阵
热图是 2D(二维)数据的图形表示。每个数据值表示在一个矩阵中。
我们首先,绘制所有独立特征和依赖特征之间的配对图。它将给出依赖和独立特征之间的关系。独立特征和依赖特征之间的关系小于 0.2 则选择该独立特征来构建模型。
2.2 单变量选择
在这种情况下,可以使用统计测试来选择与依赖特征具有最强关系的独立特征。SelectKBest方法可以与一套不同的统计测试一起使用,以选择特定数量的特征。