1 特征工程
01 特征归一化、标准化
方法
-
归一化–线性函数归一化(Min-Max Scaling)
-
标准化–零均值归一化(Z-Score Normalization)
原因
- 参数更新速度变得更为一致,收敛速度更快。
特点
-
标准化是更常用的手段,归一化的应用场景是有限的。
-
标准化更好保持了样本间距。
-
标准化更符合统计学假设。
-
必须要特征在0到1之间,此时就只能用归一化。
-
决策树模型不适用,信息增益比跟特征是否经过归一化是无关的。
02 类别型特征
03/04 组合特征
05 文本表示模型
-
词袋模型
- 将整段文本以词为单位切分开, 然后每篇文章可以表示成一个长向量, 向量中的每一维代表一个单词, 而该维对应的权重则反映了这个词在原文章中的重要程度。
- TF-IDF
- 词频-逆文本频率
- N-gram模型
- 将连续 出现的n个词(n≤N) 组成的词组(N-gram) 也作为一个单独的特征放到向量表示 中去, 构成N-gram模型。
-
主题模型
-
词嵌入与深度学习模型
- 词嵌入是一类将词向量化的模型的统称, 核心思想是将每个词都映射成低维空间(通常K=50~300维) 上的一个稠密向量(Dense Vector) 。
06 Word2Vec
-
Word2Vec的两种网络结构
- CBOW是根据上下文出现的词语来预测当前词的生成概率
- Skip-gram是根据当前词来预测上下文中各词的生成概率
-
Word2Vec与LDA的区别和联系
- LDA是利用文档中单词的共现关 系来对单词按主题聚类, 也可以理解为对“文档-单词”矩阵进行分解, 得到“文档- 主题”和“主题-单词”两个概率分布。
- Word2Vec其实是对“上下文-单词”矩阵进行 学习, 其中上下文由周围的几个单词组成, 由此得到的词向量表示更多地融入了 上下文共现的特征。