word2vec详解（一）

最新推荐文章于 2024-08-16 15:57:51 发布

sir_TI

最新推荐文章于 2024-08-16 15:57:51 发布

阅读量7.5k

点赞数 4

分类专栏： Deep learning 文章标签： CBOW word2vec 负采样 skip-gram word embedding

本文链接：https://blog.csdn.net/sir_TI/article/details/89199084

版权

本文主要讲解word2vec工具，包括CBOW和skip-gram模型，以及层次softmax和负采样训练方法。word embedding通过避免维度爆炸和表示词间距离来改善文本处理。文章介绍了层次softmax如何提升效率，以及negative sampling的采样策略。

摘要由CSDN通过智能技术生成

面经之`word2vec`篇（一）

前篇

本来以为自己word2vec掌握的很好，面试的时候回答的一团糟…借此机会，结合面试提问，再来复习一遍word2vec吧，面试给自己上了一节很重要的课…

本篇文章主要是讲解CBOW以及skip-gram模型

1.为什么需要word embedding

首先使用one-hot的时候，可能会导致维度爆炸，其次，使用one-hot的时候，所有的词之间的距离相同，而实际上，相似的词更有可能出现在相同的上下文中。如使用one-hot表示时,人和猫、狗之间的距离相等，这个在实际上是不符合要求的，那么word embedding可以解释上面的问题，那么什么是word embedding呢？其中可以理解的就是采用更加紧凑的方式来避免维度爆炸，如下面一张图：在这里插入图片描述

经过这样的表示后，我们的dog就可以表示为dog=[w1,w2,w3…]

其中基向量[w1,w2,w3…]可以采用PCA之类的方式进行获取.

word embedding的优点：

(1)相对于one-hot，能够产生稠密的向量，避免维度爆炸；

(2)词之间的距离可以表示出来（词之间的相似度）

(3)可以作为词的特征去帮助解决其他的问题，如文本分类，命名实体识别、语义分析等。

word embedding的缺点：向量的可解释性不强，没有one-hot那样明确的表示意义。

2. `word2vec`

首先大体的介绍一下word2vec是什么东西：word2vec不是一个算法，它仅仅是一个工具包，将词转换为稠密的向量，它主要是包括以下几个内容：

(1)两个模型

--CBOW

--skip-gram

(2)两种训练方式

--层次softmax

--负采样（negative sampling）

上面的内容就是word2vec这个工具的全部面貌，下面分开来叙述：

2.1 `CBOW`模型

首先是给出这个模型的网络图：
在这里插入图片描述

解释如下：

这个模型主要是根据上下文预测当前词

按照上面的图示，我们也将这个网络结构分为三层进行描述：

INPUT:文本中自己设定的窗口中包含的词向量，这个词向量是one-hot表示的(即对于每个输入的词，其表示方式是one-hot),
PROJECTION:可以理解为隐藏层，直接将输入的向量进行累加求和（先进行线性变换，然后求加和）
OUTPUT:输出层对应一个二叉树，它是以文本中出现过的词当做叶子结点，以各词出现的次数当做权值，来构建Huffman树，我们最终的w(t)实际也是一个one-hot表示，对于CBOW模型,它是一个中心值。

最终稠密的向量是如何得到的呢？---->不是其他的，就是隐藏层的权值！！

那么使用Huffman树有什么好处呢？

首先，由于是二叉树，之前计算量为O(n),现在变成了O(log(n))。第二，由于使用霍夫曼树是高频的词靠近树根，这样高频词需要更少的时间会被找到