全部笔记的汇总贴:《百面机器学习》-读书笔记汇总
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特
征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
- 结构化数据:数值型、类别型,每一行数据表示一个样本的信息。
- 非结构化数据:文本、图像、音频、视频数据,包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。
一、特征归一化
- ★☆☆☆☆ 为什么需要对数值类型的特征做归一化?
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。
- 线性函数归一化(Min-Max Scaling) X n o r m = X − X m i n X m a x − X m i n X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}} Xnorm=