第一章 特征工程
0.综述
1.1 特征工程:顾名思义,是对原始数据的进行一系列加工,将其提炼为特征,作为输入供算法和模型使用。
1.2. 对于一个机器学习问题,数据和特征决定了结果的上限,而模型和算法的选择以及优化则是在逐步接近这个上限。
1.特征归一化
2.1 原因:在学习率相同的情况下,将特征归一化到相同的数值区间后,特征更新速度变得一致,容易更快的通过梯度下降找到最优解。
2.2 方法:
(1)线性函数归一化:
(2)零均值归一化:
2.特征类别化
方法:
- 序号编码
- 独热编码
- 二进制编码
3.高维组合特征的处理
4.组合特征
5.文本表示模型
6.Word2Vec
7.图像数据不足的处理方法