特征工程:去除数据中的杂质和冗余,提取更有效的的特征。更刻画求解问题与预测模型之间的关系。
数据归一化(Normalization)
什么是归一化?
- 主要的对象是面向数值特征。
- 将数据同一到大致的数值空间。
为什么需要归一化?
- 优化方法中,如果数据的取值范围差距过大的化,算法在优化过程中,需要迭代更多次才能够找到最优解。(随机梯度下降的例子)
这个归一化方法的局限性?
- 梯队下降求解的模型需要归一化处理。(线性回归,逻辑回归,支持向量机,神经网络等模型)
- 但是对于一些决策树模型并不适用。主要是计算信息增益的方式和归一化无关。
归一化有哪些方法?
- 线性归一化(Min-Max Scaling):就是线性变换映射到【0,1】空间。
- 零均值归一化(Z-Score Normalization):将原始数据映射到均值为0,标准查为1的分布上。
线性归一化:
零均值归一化:
类别型特征:
类别型特征是什么?
- 男女,A,B,C,D这种按照类别划分。
为什么需要转换类别特征?
- 当然是因为很多算法没办法处理字符串信息,必须转化为数值类型才能够工作。
怎么转换数值类型呢?
序号编码。
- 大小关系编号。例如:高中低——>一二三(实际中需要根据具体的场景来设置转化的值)
One-hot:编码成稀疏向量的形式。
- 使用稀疏向量节省空间。
- 有时候特征维度比较高,需要降维。(高维度特征带来的问题,K邻近算法高维度特征很测量有效距离;逻辑回归模型参数的数量会随着维度增加而增加,容易过拟合;只有部分数据对预测,分类有用,配合特征选择来降维。高维度特征计算比较慢)
二进制编码
- 用二进制对类别映射,获得一个0、1向量,维度相对One-hot更少一点。
高维组合特征处理:
将离散的特征做组合,形成新特征。
怎么有效组合特征呢?
决策树寻找特征的方法。GBDT.
文本表示模型
词袋模型:
是什么?
- 忽略单词出现的顺序,将整段文本以单词为单位切分开,每篇文章可以表示为一个向量,向量的每一维度表示一个单词,权重反应了这个词在文章中的重要程度。
怎么计算权重?(TF-IDF)
词语之间会有相关性,这种划分方法并不是一个好的方法。
N-gram方法:
将词组作为单独的特征放到向量表里面。很多词语会有相似的含义,有时候会放到