word2vec相关技术总结

最新推荐文章于 2024-03-28 20:53:02 发布

earofreceiver

最新推荐文章于 2024-03-28 20:53:02 发布

阅读量250

点赞数

分类专栏：深度学习文章标签：自然语言处理

本文链接：https://blog.csdn.net/earofreceiver/article/details/104025817

版权

深度学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

对中文进行NLP，首先要对要处理的文本进行分词，再对每一个词建立向量空间，即word2Vec。

简单的词向量-one-hot vector

最简单的词向量可采用one-hot vector，对每个词用单位向量来进行表示。比如对所有的词 $w_1$ , $w_2$ , … $w_{|V|} \in V$ ，对其中的词 $w_i$ ，表示的词向量为 $(0,0,...,1,0,...0)^T \in \{0,1\}^{|V|}$ ，其中向量在第 $i$ 个位置为1，其它为0。
这种词向量会导致建立的维度太大，矩阵过于稀疏，现在用的不多了。

基于频度的共生矩阵的方法

我们可以先建立一个 $R^{|V| \times |V|}$ 的矩阵。比如以下三句话：

我热爱祖国
我热爱人民
以每句话中的每一个词，作为中心词，然后看与中心词相邻的词一起出现了几次。假设我们的训练集只有这三句话，也就是 ${我,热爱,祖国,人民\} = V$ ；同时假定我们只看相邻距离为1的词。比如我+热爱，出现了2次；我+祖国出现了1次；我+人民出现了1次等等。这样建立的矩阵就为
$\begin{aligned} &\begin{matrix} 我&热爱&祖国&人民 \end{matrix} \\ X=&\begin{pmatrix} 0 & 2 & 0 & 0 \\ 2 & 0 & 1 & 1 \\ 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 \end{pmatrix} \begin{matrix} 我\\热爱\\祖国\\人民 \end{matrix} \end{aligned}$
再对该矩阵进行奇异值分解（SVD）,即 $X=U\Sigma V^T$ ，其中矩阵 $\Sigma, V\in R^{|V| \times |V|}$ ， $U=(u_1,u_2, ..., u_{|V|})$ ， $\Sigma=diag(\sigma_1,\sigma_2,...,\sigma_{|V|})$ ， $V=(v_1,...,v_{|V|})$ ，其中 $u_i$ , $v_i$ 均为 $∣ V ∣$ 维的向量。
然后再进行降维至 $K$ 维，即 $U_K=(u_1,u_2,..,u_K)$ , $V_K=(v_1, v_2, .., v_K)$ , $\Sigma_K=(\sigma_1,...,\sigma_k)$ ，这样 $X_K=U_K\Sigma V_K^T$ ，即为 $\times K$ 的矩阵，矩阵 $X_K$ 的第 $i$ 行可认为是单词 $i$ 对应的词向量 $x_i^T$ 。
注意到对 $X$ 进行SVD，计算复杂度可高达 $O(|V|^3)$ ，因此现在用的也少。

基于Word2Vec的方法

CBOW法

将每一句话的每一个单词看作是一个中心词，和中心词相邻的距离为 $m$ 的词对应词为上下文词。CBOW法是已知上下文词，推测中心词为哪个词。比如假定 $m = 1$ ，看以下这句话

我明天就回家了

比如对中心词“就”，和它相邻距离为1的词为"明天"和“回家”。CBOW的中心思想是，已知"明天"和“回家”，求所有的词向量，使得"就“出现的概率最大。
假定我们就考虑 ${我,明天,就,回家,了\}=V$ ，可以建立一个只有一层隐藏层（两层全连接层）的神经网络。神经网络的输入、输出均采用one-hot vector编码，即对”我“编码为 $1,0,0,0,0)^T$ ，明天编码为 $0,1,0,0,0)^T$ ，依次类推。那么神经网络的结构可以表示为

其中 $K$ 为我们需要计算的词向量的长度。隐藏层之前的 $W_{|V| \times K}$ 的weight matrix定义为我们想要的输入词矩阵，其中矩阵的每一行对应一个单词的输入词向量 $w_i^T$ ，隐藏层之后的 $U_{K \times |V|}$ 定义为我们想要的输出词矩阵，其中矩阵的每一列对应一个单词的输出词向量 $u_i$ 。
很明显，这个并不是一个标准的神经网络，因为隐藏层的输出并没有激活，而是对输出的结果各行求了平均。输入到隐藏层的矩阵为 $\tilde{W}_{2m*K}$ ，其中 $\tilde{W}$ 的每一行正好对应的是输入的上下文词的输入词向量，即 $w_{j_{c-m}},...,w_{j_{c-1}},w_{j_{c+1}},...,w_{j_{c+m}})^T$ ，求完平均后矩阵为
$\bar{w_c^T }= \frac{1}{2m}\sum_{i=c-m}^{i=c+m}w_{j_i}^T$
其中， $\bar{w_c^T}$ 为 $K$ 维向量。对数据求 $s o f t m a x$ ，即
$\begin{aligned} output &= softmax(\bar{w_c^T}u_1, ..., \bar{w_c^T}u_{|V|}) \\ &= (\hat{y}_1,...,\hat{y}_{|V|}) \end{aligned}$
训练集里，输出应为 $y_1, ..., y_{|V|})$ ，定义输出的损失函数为
$L=-\sum_i y_i \log{\hat{y}_i}$
注意到 $y_1, ..., y_{|V|})$ 采用的是one-hot vector编码，所以对于输入的中心词 $c$ ，其对应的 $y_c=1$ ，同时 $y_i=0, \forall i \neq c$ 。这样损失函数可以简化为
$\begin{aligned} L&=-\log{\hat{y}_c} \\ &=-\bar{w_c^T}u_c+\log{\sum_{i=1}^{|V|}{ \exp{\bar{w_c^T}u_i } }} \end{aligned}$

Skip-Gram法

Skip-Gram与CBOW正好相反，是输入中心词的one-hot vector，输出上下文词的one-hot vector，对应的神经网络的结构为

隐藏层的输出为 $w_c^T$ 为 $K$ 维向量，这样到输出层的向量为
$\begin{aligned} &w_c^T(u_1,...,u_{|V|}) \\ &=(w_c^Tu_1,...,w_c^Tu_{|V|}) \end{aligned}$
其中输出的第 $i$ 个分量，对应的损失函数为
$\begin{aligned} L_i &= -\log{\hat{y}_{c-m+i}} \\ &= -w_c^Tu_{j_{c-m+i}} + \log{\sum_{i=1}^{|V|}\exp{w_c^Tu_i} } \end{aligned}$
总损失函数为
$\begin{aligned} L&=\sum_{i=0,i \neq m}^{2m}L_i \\ &=-\sum_{i=0,i \neq m}^{2m}w_c^Tu_{j_{c-m+i}} + 2m\log{\sum_{i=1}^{|V|}\exp{w_c^Tu_i} } \end{aligned}$
有了损失函数，就可以将 $L$ 分别对 $u_i$ 和 $w_i$ 取偏导，通过随机梯度法的迭代，去解出词向量矩阵的最优值。

改进1——Negative Sampling

上述方法中的 $L$ ，都涉及到要对 $∣ V ∣$ 个数求和。这样每次采用梯度法迭代时，对每一个分量求梯度都会有 $∣ V ∣$ 个求和运算。由于汉语的词汇量很大，达几十万个。这种方法会导致每次迭代的运算量过大，收敛慢。因此，需要考虑定义一个更加有效的损失函数 $L$ 。
令 $\mathcal{D}$ 为语料库中的中心词和上下文词构成的集合。现在我们考虑另一个集合 $\mathcal{\hat{D}}$ ，表示所有中心词不对应的上下文词构成的集合。我们取求 $U$ 和 $W$ ，使得以下值最大
$L=-\log{ \prod_{(c,a) \in \mathcal{D}}P(D=1|c,a,U,W)\prod_{(c,a) \in \mathcal{\hat{D}}}P(D=0|c,a,U,W) }$
其中 $P (D = 1 ∣ c, a, U, W)$ 为 $(c, a)$ 作为中心词和上下文词出现在语料库的概率，利用 $s o f t m a x$ 可将其定义为
$\equiv \frac{1}{1+\exp{(-w_c^Tu_a)}} \equiv \sigma(w_c^Tu_a)$
这样， $L$ 可以化简为
$L=-\sum_{(c,a) \in \mathcal{D}}\log\sigma(w_c^Tu_a)-\sum_{(c,a) \in \mathcal{\hat{D}}} \log \sigma(-w_c^Tu_a)$
在实际中 $\mathcal{\hat{D}}$ 可以通过随机取样获得。注意到skip-gram的损失函数 $L_i$ 为
$L_i= -\log \exp w_c^Tu_{j_{c-m+i}} + \log{\sum_{i=1}^{|V|}\exp{w_c^Tu_i} }$
可以改写为
$L_i=-\log \sigma{(w_c^Tu_{j_{c-m+i}})} - \log{\sum_{(c,a) \in \mathcal{\hat{D}}}}\sigma{(-w_c^Tu_a)}$
而CBOW的损失函数 $L$ 则可以改写为
$L=-\log\sigma(\bar{w_c^T}u_c)-\log{\sum_{(c,a) \in \mathcal{\hat{D}}}{ \sigma (-{\bar{w_c^T}u_a }) }}$
这样，对应每个中心词c，我们只需要随机找出一部分不是它上下文的词a就可以。同时要注意到随机取a时也要考虑到a本身在语料库中出现的频率，令 $f r e q (a) = c o u n t (a) / ∣ T e x t ∣$ ，那取a的概率建议为 $freq(a)^{3/4}$ 。所以negative sampling算法在为常见词建立词向量空间，是适合的。

改进2-Hierarchical Softmax

针对于非常见词，更合适的改进算法是Hierarchical softmax方法。
在这里插入图片描述
图中给出了Hierarchical softmax的算法。首先，将语料库的所有词建成一个二叉树的结构，其中每一个词都是这个树的叶子节点。（算法作者建议构建成Huffman树，频率高的词位于层数低的叶子节点，频率低的词位于层数高的叶子节点）。
图里以skip-gram为例，给定要训练的中心词 $c$ 和上下文词 $a$ ，找从根节点到 $a$ 的路径。定义给定中心词 $c$ ，出现上下文词 $a$ 的概率为
$\begin{aligned} P(a|c)&=P(a在节点6的右边|c)*P(a在节点4左边|c)*P(a在节点3右边|c) \\ &=\sigma(v_6^Tv_c)*\sigma(v_4^Tv_c)*\sigma(-v_3^Tv_c) \end{aligned}$
这里利用了 $\sigma(x)+\sigma(-x)=1$ 的性质。
于是损失函数即为
$\begin{aligned} L_i &= -\log P(a|c)=-\sum_{n为到a的节点}\log\sigma(v_n^Tv_c*s_n) \\ s_n&=\begin{cases} 1 & a在节点n的右边\\ -1 & a在节点n的左边 \end{cases} \end{aligned}$
和skip-gram原算法的 $L_i$ 进行比较可以发现，这里的计算 $L_i$ 复杂度取决于树的高度，即 $O(\log_2|V|)$ ，而不再是整个词汇的数目 $O (∣ V ∣)$ ，大大减少了计算的复杂度。