特征工程

最新推荐文章于 2024-10-06 15:57:40 发布

annaya

最新推荐文章于 2024-10-06 15:57:40 发布

阅读量160

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/annaya/article/details/106290627

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

概述

本质上说，是在表示和展现数据。
去除数据中的冗余、杂质，设计更高效的特征输入模型。

— 结构化数据：数值型类别型
— 非结构化数据：文本、图像等，无法数值表示，也没有清晰的类别

特征归一化

适用于–数值型特征，通过梯度下降法求解的模型一般是需要归一化的（LR、SVM、NN等）

1.目的：消除特征之间的量纲影响，使各指标处于同一数量级。
2. 原因：学习率alpa相同时，量纲大的特征更新速度快，需要更多的迭代才能招待最优解。归一化可使特征的更新速度更为一致，更快地通过梯度下降找到最优解。

不适用于决策树，其在进行节点分裂时依据数据集D关于特征x的信息增益比，归一化不会改变数据集在特征x上的信息增益。

类别型特征

一般是字符串形式，决策树等少数模型能直接处理，但LR、SVM等模型必须转成数值型特征才能工作。

labelencoder: 类间具有大小关系, eg: 成绩低、中、高（1,2,3）
one-hotencoder:类间不具有大小关系, eg: 血型
注意: 类别取值较多时（1）向量的稀疏表示来节省空间（2）特征选择来降低维度

组合特征

两两组合
高维特征简单地两两组合后，参数过多、过拟合等问题，降维。
可以分别表示为k维的低维向量再组合，参数规模从m * n 降到m * k + n * k, 等价于矩阵分解
怎样有效地找到组合特征？
GBDT, 下一个决策树你和前一个的残差

文本表示

非结构化数据

词袋

每一维表示一个单词出现的次数，n为这篇文章中不同的单词数。
缺点：忽略了词出现的顺序, 词的权重简单地用词频来表示。

tf-idf：词频*逆文档频率

如果某个词在某一类文章中TF高，并且在其他文章中很少出现，则认为此词具有很好的类别区分能力，应赋予较高的权重，并选来作为该类文本的特征词。

缺点：突出了罕见词，并有效地忽略了高频词
1 忽略了词出现的顺序
2 生僻词的IDF(反文档频率)会比较高，因此这些生僻词常会被误认为是文档关键词。(如果某个词只在某类别中的个别文本中大量出现，在类内的其他大部分文本中出现的很少，那么不排除这些个别文本是这个类中的特例情况，因此这样的特征项不具有代表性。)
3 TF-IDF没有考虑到特征项在类间和类内的分布情况，比如某个特征项在某类文档中大量分布，而在其它文档中少量分布，那么该特征项其实能很好的作为区分特征，但根据TF-IDF的公式，该特征就会受到抑制。

n_gram

N-gram的N越大，模型 Perplexity 越小，表示模型效果越好。这在直观意义上是说得通的，毕竟依赖的词越多，我们获得的信息量越多，对未来的预测就越准确。
当N变大时，更容易出现这样的状况：某些n-gram从未出现过，这就是稀疏问题。
根据极大似然估计得到的组合概率将会是0，从而整个句子的概率就会为0。最后的结果是，我们的模型只能计算零星的几个句子的概率，而大部分的句子算得的概率是0，这显然是不合理的
问题：
词汇表长度增加很快词同时出现的情况可能没有数据稀疏严重，组合阶数高时尤其明显计算效率很低；
参数空间过大参数数量很多