特征工程

概述

本质上说,是在表示和展现数据。
去除数据中的冗余、杂质,设计更高效的特征输入模型。

— 结构化数据:数值型 类别型
— 非结构化数据:文本、图像等,无法数值表示,也没有清晰的类别

特征归一化

适用于–数值型特征,通过梯度下降法求解的模型一般是需要归一化的(LR、SVM、NN等)

1.目的:消除特征之间的量纲影响,使各指标处于同一数量级。
2. 原因:学习率alpa相同时,量纲大的特征更新速度快,需要更多的迭代才能招待最优解。归一化可使特征的更新速度更为一致,更快地通过梯度下降找到最优解。

不适用于决策树,其在进行节点分裂时依据数据集D关于特征x的信息增益比,归一化不会改变数据集在特征x上的信息增益。

类别型特征

一般是字符串形式,决策树等少数模型能直接处理,但LR、SVM等模型必须转成数值型特征才能工作。

  1. labelencoder: 类间具有大小关系, eg: 成绩低、中、高(1,2,3)
  2. one-hotencoder:类间不具有大小关系, eg: 血型
    注意: 类别取值较多时(1)向量的稀疏表示来节省空间 (2)特征选择来降低维度

组合特征

  1. 两两组合
    高维特征简单地两两组合后,参数过多、过拟合等问题,降维。
    可以分别表示为k维的低维向量再组合,参数规模从m * n 降到m * k + n * k, 等价于矩阵分解
  2. 怎样有效地找到组合特征?
    GBDT, 下一个决策树你和前一个的残差

文本表示

非结构化数据

词袋

每一维表示一个单词出现的次数,n为这篇文章中不同的单词数。
缺点:忽略了词出现的顺序, 词的权重简单地用词频来表示。

tf-idf:词频*逆文档频率

如果某个词在某一类文章中TF高,并且在其他文章中很少出现,则认为此词具有很好的类别区分能力,应赋予较高的权重,并选来作为该类文本的特征词。

缺点:突出了罕见词,并有效地忽略了高频词
1 忽略了词出现的顺序
2 生僻词的IDF(反文档频率)会比较高,因此这些生僻词常会被误认为是文档关键词。(如果某个词只在某类别中的个别文本中大量出现,在类内的其他大部分文本中出现的很少,那么不排除这些个别文本是这个类中的特例情况,因此这样的特征项不具有代表性。)
3 TF-IDF没有考虑到特征项在类间和类内的分布情况,比如某个特征项在某类文档中大量分布,而在其它文档中少量分布,那么该特征项其实能很好的作为区分特征,但根据TF-IDF的公式,该特征就会受到抑制。

n_gram

N-gram的N越大,模型 Perplexity 越小,表示模型效果越好。这在直观意义上是说得通的,毕竟依赖的词越多,我们获得的信息量越多,对未来的预测就越准确。
当N变大时,更容易出现这样的状况:某些n-gram从未出现过,这就是稀疏问题。
根据极大似然估计得到的组合概率将会是0,从而整个句子的概率就会为0。最后的结果是,我们的模型只能计算零星的几个句子的概率,而大部分的句子算得的概率是0,这显然是不合理的
问题:
词汇表长度增加很快 词同时出现的情况可能没有 数据稀疏严重 ,组合阶数高时尤其明显 计算效率很低;
参数空间过大 参数数量很多

word embedding

每个词映射为低维空间上的稠密向量,深度学习模型不同的隐层对应不同抽象层次的特征,相比机器学习自动地进行特征工程。

主题模型

Word2vec

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值