简介
特征工程处于哪个步骤呢?
我觉得整个机器学习流程主要可以分为 数据采集、数据探索、数据预处理、建模、模型分析与优化和部署使用。
特征工程大概位于数据预处理和建模之间,特征工程与数据预处理是有交叉的,为啥这么说呢?往下看
一般来说,我们采集的数据时无法直接用于建模的,其中可能含有一些脏数据,比如缺失值、异常值或者不一致的值,这些脏数据可以通过数据探索和数据预处理来进行处理的。
但是经过数据预处理后的干净数据就可以直接用于建模吗?很多时候都是不可以的。我们可能需要从这些干净的数据中进行降维或者利用多个属性生产其他的更复杂的特征,总之,经过特征工程后剩下的数据属性就是可以直接用于建模的属性。
特征工程的定义
特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式
正确的特征要视模型和数据的具体情况而定,而模型和数据时千差万别的,很难从各种项目中归纳出特征工程的实践原则。
但是特征工程是有一些基本原则的。
比较喜欢的一段话:
掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优点和缺点。