文本向量化表示

最新推荐文章于 2024-04-30 11:24:34 发布

卓玛cug

最新推荐文章于 2024-04-30 11:24:34 发布

阅读量657

点赞数

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq_29153321/article/details/105198822

版权

推荐系统专栏收录该内容

16 篇文章 2 订阅

订阅专栏

1、One-hot编码

0、1表示
缺点是矩阵稀疏，维数高和不能保留语义

2、词袋（BOW）模型

统计各词在文本中出现次数
缺点是不能保留语义，维数高和稀疏性

3、TF-IDF

词频*逆词频
缺点是不能保留语义

4、N-Gram

考虑了词的顺序
N=1时称为unigram，N=2称为bigram，N=3称为trigram
缺点是随着N的增大，词表迅速膨胀，数据出CBOW现大量稀疏的问题。

5、Word2Vec

CBOW
CBOW是一个三层神经网络，特点是输入已知上下文，输出对当前单词的预测。

Skip-Gram
Skip-Gram与CBOW相反，即已知某个词语，预测周围的词语。

在skip-gram里面，每个词在作为中心词的时候，实际上是 1个学生 VS K个老师，K个老师（周围词）都会对学生（中心词）进行“专业”的训练，这样学生（中心词）的“能力”（向量结果）相对就会扎实（准确）一些，但是这样肯定会使用更长的时间；

cbow是 1个老师 VS K个学生，K个学生（周围词）都会从老师（中心词）那里学习知识，但是老师（中心词）是一视同仁的，教给大家的一样的知识。至于你学到了多少，还要看下一轮（假如还在窗口内），或者以后的某一轮，你还有机会加入老师的课堂当中（再次出现作为周围词），跟着大家一起学习，然后进步一点。因此相对skip-gram，你的业务能力肯定没有人家强，但是对于整个训练营（训练过程）来说，这样肯定效率高，速度更快。

延申知识：
由于word2vec有两种改进方法，一种是基于Hierarchical Softmax的，另一种是基于Negative Sampling的。

基于Hierarchical Softmax：

word2vec对这个模型做了改进，首先，对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。比如输入的是三个4维词向量：(1,2,3,4),(9,6,11,8),(5,10,7,12),那么我们word2vec映射后的词向量就是(5,6,7,8)。由于这里是从多个词向量变成了一个词向量。
第二个改进就是从隐藏层到输出的softmax层这里的计算量个改进。为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。我们在上一节已经介绍了霍夫曼树的原理。
具体原理可参考https://www.cnblogs.com/pinard/p/7243513.html

卓玛cug

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本向量化表示

1、One-hot编码0、1表示缺点是矩阵稀疏，维数高和不能保留语义2、词袋（BOW）模型统计各词在文本中出现次数缺点是不能保留语义，维数高和稀疏性3、TF-IDF词频*逆词频缺点是不能保留语义4、N-Gram考虑了词的顺序N=1时称为unigram，N=2称为bigram，N=3称为trigram缺点是随着N的增大，词表迅速膨胀，数据出CBOW现大量稀疏的问题。5、Wo...
复制链接

扫一扫