特征工程

最新推荐文章于 2021-11-25 21:57:47 发布

yin_zhao

最新推荐文章于 2021-11-25 21:57:47 发布

阅读量323

点赞数

分类专栏：机器学习文章标签：特征机器学习特征工程

本文链接：https://blog.csdn.net/qq_33614843/article/details/99989993

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1 特征归一化

特征归一化针对数值类型的特征。

1.1 种类

线性函数归一化（Min-Max Scaling）

该归一化对数据做线变换，是结果映射到 $[0, 1]$ 的范围，实现的是等比缩放。公式为：
$X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$

零均值归一化（Z-score Normalization）

该归一化对数据映射到均值为 $0$ ，方差为 $1$ 的分布上。公式为：
$z=\frac{X-\mu}{\sigma}$
其中 $\mu$ 和 $\sigma$ 分别为原始特征的均值和方差。

1.2 理由

使得不同尺度的特征具有可比性。如身高（1.6~1.8）和体重（50~100），分析出来的结果会倾向于数值差别比较大的体重特征。归一化使各特征指标处于同一数量级，以便进行分析。
提高梯度下降收敛速度。联想椭圆（未归一化）和圆（归一化处理），归一化之后可能需要更少的迭代次数即可找到最优解。
例外：归一化不是万能的。线性回归、逻辑回归、SVM和神经网络可以归一化。但归一化不适用于决策树，因为决策树特征的选取是依据特征的信息增益比的大小，而信息增益比跟特征是否经历过特征归一化没有关系。

2 类别型特征

类别型特征（Categorical feature）是指例如性别，血型等只能在有限选项内取值的特征。输入形式通常为字符串。这种输入形式对于逻辑回归、SVM来说是无法处理的，只有将类别型特征转换成数值型特征后才行。

2.1 转换方法

序号编码（Ordinal encoding）

很好理解，就是将类别间具有大小关系的特征赋予一定的序号，这个序号反映了原始类别之间的大小关系。例如身高有“高”，“中”，“低”三个类别，那么就可以将他们转化成 $3 > 2 > 1$ 这样的形式，使转换之后大小关系仍然得以保留。

独热编码（One-hot encoding）

处理不具有大小关系的特征。如血型（A, B, AB, O）。独热编码会把血型变成一个4维稀疏向量，A为 $(1, 0, 0, 0)$ ，B为 $(0, 1, 0, 0)$ ，AB为 $(0, 0, 1, 0)$ ，O为 $(0, 0, 0, 1)$ 。
需要注意的问题：

使用稀疏向量来节省空间。因为特征向量只有某一维为1，其他位置均为0。因此可以用向量稀疏表示来节省空间。大部分算法均支持稀疏表示。
配合特征选择来降低维度。高维度会带来几个问题：一是KNN算法中，高维空间下两点之间的距离很难得到有效的衡量；而是在逻辑回归中，参数的数量会随着维度的增高而增加，容易造成过拟合的问题；三是高维的特征往往只有部分维度对于分类、预测是有贡献的。

二进制编码（Binary encoding）

第一步：先用序号编码给每个类别予以编号ID，
第二部：将类别ID转换成二进制编码作为最终结果。
本质：利用二进制对ID进行哈希映射。
相比于独热编码：维数较少，节省了空间，降低了过拟合的风险。

二进制编码和独热编码的比较
血型	类别ID	二进制表示			独热编码
A	1	0	0	1	1	0	0	0
B	2	0	1	0	0	1	0	0
AB	3	0	1	1	0	0	1	0
O	4	1	0	0	0	0	0	1

3 高维组合特征的处理

3.1 组合特征

以逻辑回归为例，假设数据的特征向量为 $X=(x_1,x_2,...,x_k)$ ，则有，
$Y=sigmoid(\sum_i\sum_jw_{ij}<x_i,x_j>)$
其中 $lt;x_i,x_j>$ 表示 $x_i$ 和 $x_j$ 的组合特征， $w_{ij}$ 的维度为 $|x_i|\cdot |x_j|$ ， $x_i|$ 表示特征 $x_i$ 不同取值的个数。

3.2 高维组合特征处理

假设两个特征的取值个数分比为 $m, n$ ，当他们较小是， $w$ 的维度大小可以接受。但是当他们较大时，需要学习的参数的规模 $m\times n$ 就非常大。
这时可以将这两个特征用 $k$ 维的低维向量来表示（ $k\ll m,k\ll n$ ），
$Y=sigmoid(\sum_i\sum_jw_{ij}<x_i,x_j>)$
其中 $w_{ij}=x_i'\cdot x_j'$ ， $x_i'$ 和 $x_j'$ 分别表示 $x_i$ 和 $x_j$ 对应的低维向量（？个人觉得应该是做了一个低维映射，只是不知道怎么映射的）。

4 组合特征

随意的两两组合特征会导致参数过多，过拟合的问题，而且并非所有的组合均有意义。这里使用了构造决策树的方法来组合特征。具体的可以采用梯度提升决策树，每次都在构建的决策树的残差的基础上构建一个决策树。决策树的构建见统计学习方法。这里不多说。

5 文本表示模型

文本：非结构化数据。

5.1 词袋模型（Bag of Words）

将每篇文章看成一袋子词，忽略每个词出现的顺序。将文本以词为单位切开，每篇文章可以表示为一个词向量，向量中每一维表示一个词，该词对应的权重则反映了这个词在文章中的重要程度。常用的计算权重的方法是 TF-IDF（Term frequency-Inverse document frequency）。公式为
$TF-IDF(t,d)=TF(t,d)\times IDF(t)$
右边第一项表示单词 $t$ 在文档 $d$ 中出现的概率，第二项是逆文档频率，用来衡量单词 $t$ 对表达语义所起的重要性。简单地说就是如果一个词在很多的文章中出现，如“的”，那么对于区分文章特殊语义的贡献就较小，因此对这个词的权重做一些惩罚。
当连续的单词在一起时才有具体意义的时候，可采用N-gram来将连续出现的n个词组成的词组作为一个单独的特征放到向量表示中去，构成 N-gram 模型。
另外，一词多词性现象也是要考虑的。实际中，会对单词进行词干抽取（Word stemming） 处理，将不同词性的单词统一成为同一词干的形式。

5.2 主题模型

从文本库中发现有代表性的主题（每个主题上面词的分布特性），计算出每篇文章的主题分布。

5.3 词嵌入与深度学习

词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成一个低维空间上的一个稠密向量。得出的结果往往要结合深度学习神经网络来处理，因为神经网络很好地抓住了文本的特征，自动地进行特征工程。

6 Word2Vec

在这里插入图片描述
CBOW（Continuous bag of words）目标是根据上下文出现的词语来预测当前词的生成概率，Skip-gram是根据当前词来预测上下文各词的生成概率。
输入层中的每个词由独热编码方式表示。映射层中，K个隐藏单元的取值由N维输入变量和隐藏单元之间的 $N\times K$ 维权重矩阵计算得到。在CBOW中，还需要将各输入此所计算出的隐含单元求和。Skip-gram输出层向量是一个N维向量，每维与词汇表中的一个单词相对应。最后，对输出层向量应用 Softmax 激活函数，可以计算出每个单词的生成概率。Softmax 激活函数的定义为：
$P(y=w_n|x)=\frac{e^{x_n}}{\sum_{k=1}^N e^{x_i}}$
训练得到维度为 $N\times K$ 和 $K\times N$ 的两个权重矩阵之后，可以选择其中一个作为N个词的K维向量表示。