【Graph Embedding】Word2Vec：词嵌入详解_中文 graph word embedding-CSDN博客

本文链接：https://blog.csdn.net/qq_27075943/article/details/104315836

本文深入探讨了 Google 的 Word2Vec 工具，介绍了词向量（Word Embedding）的概念，以及 Word2Vec 的两种网络结构 CBOW 和 Skip-Gram。讲解了 Hierarchical Softmax 和 Negative Sampling 等优化方法，以及它们对词频高低单词的影响。此外，还讨论了 Word2Vec 的参数调整和应用场景。

摘要由CSDN通过智能技术生成

Introduction

Word2Vec 是 Google 在 2013 年开源的一个词向量（Word Embedding）计算工具，其用来解决单词的分布编码问题，因其简单高效引起了工业界和学术界极大的关注。

我们先尝试着回答几个问题，以检测下自己对 Word2Vec 的理解。

Word2Vec 两个算法模型的原理是什么，网络结构怎么画？
网络输入输出是什么？隐藏层的激活函数是什么？输出层的激活函数是什么？
目标函数/损失函数是什么？
Word2Vec 如何获取词向量？
Word2Vec 的两个模型哪个效果好哪个速度快？为什么？
推导一下参数如何更新？
Word2Vec 加速训练的方法有哪些？
介绍下 Hierarchical Softmax 的计算过程，怎么把 Huffman 放到网络中的？参数是如何更新的？对词频低的和词频高的单词有什么影响？为什么？
介绍下 Negative Sampling，对词频低的和词频高的单词有什么影响？为什么？
Word2Vec 有哪些参数，有没有什么调参的建议？
Word2Vec 有哪些局限性？

注：由于本文公式比较多不适合 Wrod2Vec 入门，入门学习可以参考 McCormick 大佬的几篇系列教程：《Word2Vec Tutorial》。

Word Embedding

在聊 Word2Vec 之前，我们先来了解一下词向量，我们都知道字符变量在送到神经网络训练之前需要将其编码成数值变量，常见的编码方式有两种：

One-Hot 编码：以字符变量的种类为向量长度，向量中仅一个元素为 1 其它均为 0，这种编码方式的缺点是数据稀疏，不适合作为神经网络的输入（参数更新慢，收敛速度慢，计算量大），且无法捕捉到词与词之间的关系（相互正交）；
分布编码：将字符变量映射到固定长度的向量中，向量空间中的点可以表示某个字符变量，且字符间的距离有意义。理想状况下，两个对象越相似其在空间中的距离就越近。

举个简单的例子，使用 One-Hot 编码时男=[1, 0]，女=[0,1]，而使用分布编码时，男=1, 女=0。我们可以看到分布编码占用的空间比 One-Hot 要小。

今天要聊的 Word2Vec 是一种典型的分布编码方式，通过训练浅层神经网络获得词向量。

Structure

Word2Vec 有两种网络结构：CBOW 和 Skip-Gram，其结构如下图所示：

model architectures

CBOW 是用上下文预测当前单词，Skip-gram 是用当前词预测上下文，两种网络都可以概括为如下网络：

simple model architectures

其中，网络的输入是 One-Hot 向量 $w_k=(x_1,x_2...x_k...x_V)$ ，隐藏层无激活函数，输出层有 Softmax 函数，输出的是概率分布，预测目标也为 One-Hot 向量$w_j=(x_1,x_2…x_j…x_V) $。层与层之间采用全连接方式，并用反向传播训练网络。

输入层到隐藏层的映射矩阵为 $W_{V \times N}$ ，隐藏层到输出层的映射矩阵为 $W_{N \times V}^{'}$ ，也就是说对于任意的单词 $w_k $ 我们都可以有两种表示向量：
$v_{w_j} = X_k W^T \quad v_{w_j}^{'} = X_k W^{'}$
其中， $X_k$ 为单词 k 的 One-Hot 编码，大小为 (1, N)。这个操作的本质是把 W 的第 k 行复制给 v。举个例子：

matrix multiplicate

为方便起见，我们将 $v_{w_j}$ 成为输入向量，将 $v_{w_j}^{'}$ 成为输出向量。

输出层的计算方式采用 Softmax：
$p(w_j|w_k) = \frac{exp({v_{w_j}^{'}}^Tv_{w_k})}{\sum_{i=1}^V exp({v_{w_i}^{'}}^Tv_{w_k})}$
我们目的是想让 $y_j$ 的第 j 个位置的值越大越好，其他位置的值越小越好。
$\; p(w_j|w_k) = max \; log(p(w_j|w_k)) \\ ={v_{w_j}^{'}}^Tv_{w_k} - log(\sum_{i=1}^V exp({v_{w_i}^{'}}^Tv_{w_k})) := -E$
所以损失函数为： $E=-log(p(w_j|w_k))$ 。

我们利用反向传播来更新参数，首先输出向量求偏导：
$\frac{\partial E}{\partial w_{i,j}^{'}} = \frac{\partial E}{\partial u_{j}^{'}} \frac{\partial u_{j}^{'}}{\partial w_{i,j}^{'}} =(y_j-p_j) \cdot h_i \\$
其中： $u_{j}^{'} = {v_{w_j}^{'}}^Tv_{w_j}$