NLP入门—Task5 从one-hot到word2vec

最新推荐文章于 2023-03-19 18:12:22 发布

doggyya

最新推荐文章于 2023-03-19 18:12:22 发布

阅读量181

点赞数

分类专栏：学习笔记

学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

参考资料：词袋模型、word2vec1、word2vec2、word2vec 中的数学原理详解、word2vec原理推导与代码分析

1、词袋模型
词袋模型（Bag of Words，简称BoW），词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅考虑词的权重，而这一权重与词频率有关（参见前几篇）。常见方法为one-hot、TF-TDF。
如果有一个3个词组成的词汇汇表，词“listen”的序号是2，那么它的词向量为（0，1，0）.这种词编码方式为one-hot-representation。此种方法将很有可能得到每个句子离散、高维稀疏的情况。

2、分布式表示
分布式表示（Distributional Representation），把研究对象表示为一个低维、稠密的连续向量。它通过提取向量的每个维度，再集合行成新的向量，可以反映对象在空间的具体位置，代表着对象的语言信息。

3、word2vec词向量原理及实践
word2vec是分布式表示，生成词向量的一种方法。
在word2vec之前，常见的得到词向量的方法是通过神经网络语言模型。一般是一个三层神经网络结构，分别是输入层、隐藏层和输出层。在定义输入和输出时，一般分为CBOW（continuous bag-of-words）与Skip-Gram两种模型。
CBOW是输入某个特征词的上下文相关的词对应的词向量，输出是特定词的词向量。Skip-Gram模型思路相反，输入特定词的词向量，输出特定词上下文词向量。

3.1 基于Hibrarchical Softmax模型的word2vec（霍夫曼树）
word2vec同样使用上边两个模型输入输出，但没有应用DNN模型。它采用霍夫曼代替隐藏层和输出层的神经元，叶子节点进行输出，叶子节点个数代表词汇表的大小。
存在缺点：如果训练的中心词是个生僻词，那么霍夫曼树下分支要走很多，因此需要寻找一个更为简单的模型。

3.2 基于Negative Sampling模型的word2vec
负采样方法，是假设训练样本的中心词w，上下文有2c个词，记为text(w)，此为真实存在的正例。通过负采样，得到n个不同于w的中心词wi，这样text(w)和wi组成了n个虚拟存在的负例。通过二元逻辑回归，得到wi对应的模型参数Fi和每个词的词向量。

代码示例参见 Pinard-博客园-github

doggyya

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP入门—Task5 从one-hot到word2vec

参考资料：词袋模型、word2vec1、word2vec2、word2vec 中的数学原理详解、word2vec原理推导与代码分析1、词袋模型词袋模型（Bag of Words，简称BoW），词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅考虑词的权重，而这一权重与词频率有关（参见前几篇）。常见方法为one-hot、TF-TDF。如果有一个3个词组成的词汇汇表，词“listen”的...
复制链接

扫一扫