Garbage in, garbage out.
上面这句话是计算机科学和数学中很常见的概念,输出质量是由输入质量决定的。这句话很好的体现了数据和特征对于一个模型所产出的数据的影响。
特征工程, 顾名思义, 是对原始数据进行一系列工程处理, 将其提炼为特征, 作为输入供算法和模型使用
本章主要讨论以下两种常用的数据类型。
(1) 结构化数据。 结构化数据类型可以看作关系型数据库的一张表, 每列都有清晰的定义, 包含了数值型、 类别型两种基本类型; 每一行数据表示一个样本的信息。
(2) 非结构化数据。 非结构化数据主要包括文本、 图像、 音频、 视频数据,其包含的信息无法用一个简单的数值表示, 也没有清晰的类别定义, 并且每条数据的大小各不相同。
01 特征归一化
为了消除数据的不同特征之间的量纲影响, 我们需要对特征进行归一化处理, 使得不同指标之间具有可比性。