目录
3.1.1 移除低方差的特征 (Removing features with low variance)
3.1.2 单变量特征选择 (Univariate feature selection)
递归特征消除 (Recursive Feature Elimination)
使用SelectFromModel选择特征 (Feature selection using SelectFromModel)
3.3.1 基于L1的特征选择 (L1-based feature selection)
3.3.2 随机稀疏模型 (Randomized sparse models)
3.3.3 基于树的特征选择 (Tree-based feature selection)
3.3.4 将特征选择过程融入pipeline (Feature selection as part of a pipeline)
1 特征工程是什么?
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:
特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也十分强大!
本文中使用sklearn中的IRIS(鸢尾花)数据集来对特征处