word2vec

最新推荐文章于 2022-03-07 21:05:46 发布

qq_39643868

最新推荐文章于 2022-03-07 21:05:46 发布

阅读量198

点赞数

分类专栏： nlp

nlp 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Google 于 2013 年开源推出的一个用于获取 word vector 的工具包（word2vec），
其中的两个训练模型（Skip-gram，CBOW）
两种加速的方法（Hierarchical Softmax，Negative Sampling）

作用:
将所有词语投影到K维的向量空间，每个词语都可以用一个K维向量表示。
由于它简洁，高效的特点，引起了人们的广泛关注，并应用在很多NLP任务中，用于训练相应的词向量
传统的词表示 — one-hot representation

向量的维度是词表大小，其中绝大多数元素为 0，只有一个维度的值为 1，这个维度就代表了当前的词

Distributed representation — word embedding

word2vec通过这种方法将词表示为向量，

即通过训练将词表示为限定维度K的实数向量，这种非稀疏表示的向量很容易求它们之间的距离(欧式、余弦等)，从而判断词与词语义上的相似性，
解决了one-hot方法表示两个词之间的相互独立的问题

Distributed representation并不是word2vec诞生才有的， word2vec之所以会产生这么大的影响，是因为它采用了简化的模型，使得训练速度大为提升，让word embedding这项技术(也就是词的distributed representation)变得实用，能够应用在很多的任务上

Skip-Gram model and CBOW model图

CBOW和Skip-Gram的结构图能够看出，两个模型都包含三层结构，分别是输入层，投影层，输出层；
CBOW模型是在已知当前词上下文context的前提下预测当前词w(t)，类似阅读理解中的完形填空；
而Skip-Gram模型恰恰相反，是在已知当前词w(t)的前提下，预测上下文context
对于CBOW和Skip-Gram两个模型，word2vec给出了两套框架，用于训练快而好的词向量，他们分别是Hierarchical Softmax 和 Negative Sampling

Negative Sampling
它是噪声对比损失函数NCE(Noise Contrastive Estimation)的简化版本，用于提高训练速度和提升词向量质量

假如训练样本中心词是w，它周围上下文共有2c个词，记为context(w)。
由于这个中心词w，和context(w)相关存在，因此它是一个真实的正例。
通过Negative Sampling进行负采样，得到neg（负采样的个数）个和w不同的中心词wi，i=1,2,…neg，这样context(w)和wi就组成了neg个并不真实存在的负例。
利用这一个正例和neg个负例，进行二元逻辑回归（可以理解成一个二分类问题），得到负采样对应每个词wi对应的模型参数以及每个词的词向量

如何进行负采样，得到neg个负例？
word2vec采样的方法并不复杂，如果词汇表的大小为V，那么我们就将一段长度为1的线段分成V份，每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短（根据词频采样，出现的次数越多，负采样的概率越大）。每个词w的线段长度由下式决定：

在采样前，我们将这段长度为1的线段划分成M等份，这里M»V，保证每个词对应的线段都会划分成对应的小块，而M份中每一份都会落在某一个词对应的线段上(如下图)，采样的时候，我们只需要随机生成neg个数，对应的位置就是采样的负例词。
Hierarchical Softmax
如下图所示：网络结构很简单，仅包含三层网络结构，输入层，投影层，输出层。

输入层到投影层是把输入层的所有向量进行加和给投影层，比如，输入的是三个4维词向量：(1,2,3,4)，(9,6,11,8)，(5,10,7,12)，那么我们word2vec映射后的词向量就是(5,6,7,8)，对CBOW模型来说，就是把上下文词向量加和，然而，对于Skip-Gram模型来说就是简单的传值。

最后的输出是构建一颗哈夫曼树，哈夫曼树的所有叶子节点是词表中的所有词，权值是每个词在词表中出现的次数，也就是词频。

一般得到哈夫曼树后我们会对叶子节点进行哈夫曼编码，
由于权重高的叶子节点越靠近根节点，而权重低的叶子节点会远离根节点，
这样我们的高权重节点编码值较短，而低权重值编码值较长。
这保证的树的带权路径最短，也符合我们的信息论，即我们希望越常用的词（词频越高的词）拥有更短的编码，
一般的编码规则是左0右1，但是这都是人为规定的，
word2vec中正好采用了相反的编码规则，同时约定左子树的权重不小于右子树的权重。

如何“沿着哈夫曼树一步步完成”呢？

在word2vec中，采用了二元逻辑回归的方法，即规定沿着左子树走，那么就是负类(哈夫曼树编码1)，沿着右子树走，那么就是正类(哈夫曼树编码0)。

使用哈夫曼树有什么好处呢？

首先，由于是二叉树，之前计算量为V，现在变成了log2V。

其次，由于使用哈夫曼树是高频的词靠近树根，这样高频词需要更少的时间会被找到，这符合我们的贪心优化思想。