深度解析：特征工程与数据预处理在机器学习中的关键作用,-CSDN博客

本文链接：https://blog.csdn.net/2301_81480617/article/details/135876918

特征工程与数据预处理概述

一个机器学习系统可以学习的程度主要由训练数据的质量决定。尽管每个学习算法都有其自身的优点和缺点，但系统性能上的差异往往来自于数据的准备方式或者表现形式的不同。
因此特征工程可以理解为数据表示的一个工具。

特征工程可以分为两个阶段：

特征选择：这是识别数据中的重要属性或重要特征的过程。一张图片的潜在特征可能是边缘的位置，角的位置或者几的位置。像OpenCV提供的高级的特征描述符——尺度不变特征变换（Scale-Invariant Feature Transform，SIFT）和加速健壮特征（Speeded Up Robust Features，SURF）。
特征提取：这是把原始数据转换为用于机器学习算法的期望特征空间的实际过程。Harris算法是其中的一个例子，可以使用它从图像中提取角点（即选择的特征）。

特征工程是数据预处理流程的一部分，具体结构如下图所示。
在这里插入图片描述

处理数据时越遵守规则，最后越有可能得到更好的结果。
这个过程第一步就叫作数据预处理，它主要有以下三种形式：

一旦数据被预处理后就可以进行真正的特征工程了：把预处理后的数据转化为满足特定机器学习算法需要的格式。这个过程通常包括下面三个步骤中的一步或者多步：

缩放：某些机器学习算法常常要求数据在一个特定的范围内，比如需要拥有零均值和单位方差。缩放是将所有的特征（可能有不同的物理单位）变为特定范围内的值的一个过程。
分解：数据集常拥有比我们所能处理的更多的特征。特征分解是把数据压缩成由少量但具有更多信息的数据成分组合的数据的过程。
聚合：有时需要把多个特征聚合成为一个更有意义的特征。比如一个数据集中可能包含每个用户登录web系统的日期和时间，根据特定的任务，这个数据可能通过简单的统计每个用户登录的次数来表示会更为合适。

参考书籍：《机器学习：使用OpenCV和Python进行智能图像处理》