语言模型【word2vec】学习笔记

最新推荐文章于 2022-08-05 09:43:26 发布

superY25

最新推荐文章于 2022-08-05 09:43:26 发布

阅读量191

点赞数

分类专栏：人工智能文章标签：自然语言处理词向量 word2vec

本文链接：https://blog.csdn.net/superY_26/article/details/108743631

版权

人工智能专栏收录该内容

68 篇文章 10 订阅

订阅专栏

概要

Word2Vec模型是由Tomas Mikolov在2013发表的《Efficient Estimation of Word Representations in Vector Space》论文中提出的。其主要是为了解决大规模数据下（数据集大且词典表大）训练出低维度（50-100）的高质量的词向量。

Word2Vec模型包含两个模型框架：Continuous Bag of Words Model（CBOW）和Continuous Skip-gram Model（Skip-gram）。如下图
在这里插入图片描述
从图中我们知道模型分为三层：输入层、映射层、输出层。为了提高word2vec模型的性能，采用了如下两种实现方法：基于Hierarchical Softmax和基于Negative Sampling。

基于Hierarchical Softmax

输入层： $c_t$ 中包含 $2 n$ 个词的词向量， $v_{w_{t-n}},...,v_{w_{t-1}},v_{w_{t+1}},...,v_{w_{t+n}} \in \R^m$ 这里m的含义表示词向量的长度。
映射层：将输入层 $2 n$ 个向量做求和累加，取平均，即 $\operatorname{x}_w=\frac{1}{2n}\sum_{i=1}^{2n}v_{w_{i}}$
输出层：输出层对应一颗二叉树，它是以语料中出现过的词当叶子节点，以各词在语料中出现的次数当权值构造出来的Huffman树。在这课Huffman树中，叶子节点共 $N (= ∣ D ∣)$ 个，分别对应词典 $D$ 中的词，非叶子节点 $N - 1$ 个。

如图所示，为词库构建的Huffman树，如何利用此树计算每个词的概率。
在这里插入图片描述
在word2vec中采用了二元逻辑回归的方法，即规定沿着左子树走，那么就是负类(霍夫曼树编码1)，沿着右子树走，那么就是正类(霍夫曼树编码0)。判别正类和负类的方法是使用sigmoid函数，即： $P(+)=\sigma(x_w^T\theta)=\frac{1}{1+e^{-x_w^T\theta}}$ 其中 $x_w$ 是当前内部节点的词向量，而 $\theta$ 则是我们需要从训练样本求出的逻辑回归的模型参数。对于负类样本的概率： $P(-)=1-P(+)=1-\frac{1}{1+e^{-x_w^T\theta}}$ 为了获得所有节点的词向量和所有内部节点的 $\theta$ ，使用最大似然法求解，如上图的 $w_2$ ，我们期望最大化下面的似然函数： $\prod_{i=1}^3P(n(w_i),i)=(1-\frac{1}{1+e^{-x_w^T\theta_1}})(1-\frac{1}{1+e^{-x_w^T\theta_2}})(1-\frac{1}{1+e^{-x_w^T\theta_3}})$ 为了便于我们后面一般化的描述，我们定义输入的词为 $w$ ,其从输入层词向量求和平均后的霍夫曼树根节点词向量为 $x_w$ , 从根节点到 $w$ 所在的叶子节点，包含的节点总数为 $l_w$ , $w$ 在霍夫曼树中从根节点开始，经过的第 $i$ 个节点表示为 $p_{i}^w$ ,对应的霍夫曼编码为 $d^w_i$ ∈{0,1},其中 $i=1,2,...,l_w$ 。而该节点对应的模型参数表示为 $\theta_i^w$ , 其中 $i=1,2,...,l_w-1$ ，没有 $i=l_w$ 是因为模型参数仅仅针对于霍夫曼树的内部节点。

定义 $w$ 经过的Huffman树某一个节点 $j$ 的逻辑回归概率为 $P(d_j^w|x_w,\theta_{j-1}^w)$ ，其表达式为： $P(d_j^w|x_w,\theta_{j-1}^w)=\begin{cases} \sigma(x_w^T\theta_{j-1}^w) & d_j^w=0 \\ 1-\sigma(x_w^T\theta_{j-1}^w) & d_j^w=1 \end{cases}$ 那么对于某一个目标输出词 $w$ ,其最大似然为： $\prod_{j=2}^{l_w}P(d_j^w|x_w,\theta_{j-1}^w)=\prod_{j=2}^{l_w}[\sigma(x_w^T\theta_{j-1}^w)]^{1-d_j^w}[1-\sigma(x_w^T\theta_{j-1}^w)]^{d_j^w}$ 在word2vec中，由于使用的是随机梯度上升法，所以并没有把所有样本的似然乘起来得到真正的训练集最大似然，仅仅每次只用一个样本更新梯度，这样做的目的是减少梯度计算量。这样我们可以得到 $w$ 的对数似然函数 $L$ 如下： $L=log\prod_{j=2}^{l_w}P(d_j^w|x_w,\theta_{j-1}^w)=\sum_{j=2}^{l_w}((1-d_j^w)log[\sigma(x_w^T\theta_{j-1}^w)]+d_j^wlog[1-\sigma(x_w^T\theta_{j-1}^w)])$ 根据梯度求解可以得到模型参数 $\theta_{j-1}^w$ 和 $x_w$ 的梯度：
$\frac{\partial L}{\partial \theta_{j-1}^w}=(1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))x_w$ $\frac{\partial L}{\partial x_w}=\sum_{j=2}^{l_w}(1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))\theta_{j-1}^w$ 有了梯度表达式，我们就可以用梯度上升法进行迭代来一步步的求解我们需要的所有的 $\theta_{j-1}^w$ 和 $x_w$ ,即：￥ $\theta_{j-1}^w=\theta_{j-1}^w+\eta(1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))x_w$ $x_i=x_i+\eta\sum_{j=2}^{l_w}(1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))\theta_{j-1}^w\quad(i=1,2,...,2n)$ 其中 $\eta$ 为学习步长。

CBOW的基于Hierarchical Softmax的算法流程：

输入：基于CBOW的语料训练样本，词向量的维度大小 $M$ ，CBOW的上下文大小 $2 n$ ,步长 $\eta$
输出：霍夫曼树的内部节点模型参数 $\theta$ ，所有的词向量 $w$
(1)、基于语料训练样本建立霍夫曼树。
(2)、随机初始化所有的模型参数𝜃，所有的词向量𝑤
(3)、进行梯度上升迭代过程，对于训练集中的每一个样本(𝑐_t,𝑤)做如下处理：

e=0, 计算 $x_w=\frac{1}{2n}\sum_{i=1}^{2n}x_i$
for j=2 to $l_w$ , 计算： $f=\sigma(x_w^T\theta_{j-1}^w)$ $g=(1-d_j^w-f)\eta$ $e=e+g\theta^w_{j-1}$ $\theta^w_{j-1}=\theta^w_{j-1}+gx_w$
对于 $c_t$ 中的每一个词向量 $x_i$ (共 $2 n$ 个)进行更新： $x_i=x_i+e$
如果梯度收敛，则结束梯度迭代，否则回到步骤(3)继续迭代。

Skip-gram的基于Hierarchical Softmax的算法流程：

输入：基于Skip-Gram的语料训练样本，词向量的维度大小 $M$ ，Skip-Gram的上下文大小 $2 n$ ,步长 $\eta$
输出：霍夫曼树的内部节点模型参数 $\theta$ ，所有的词向量 $w$
1、基于语料训练样本建立霍夫曼树
2、随机初始化所有的模型参数 $\theta$ ，所有的词向量 $w$ ,
3、进行梯度上升迭代过程，对于训练集中的每一个样本(𝑤,c_t)做如下处理：
1) for i = 1 to 2n:

e =0
for j = 2 to $l_w$ ，计算： $f=\sigma(x_i^T\theta_{j-1}^w)$ $g=(1-d_j^w-f)\eta$ $e=e+g\theta^w_{j-1}$ $\theta^w_{j-1}=\theta^w_{j-1}+gx_i$ 3. $x_i=x_i+e$

2) 如果梯度收敛，则结束梯度迭代，算法结束，否则回到步骤1)继续迭代

总结：从Huffman树的原理来看，对于处理高频词具有很大的优势，但是对于处理生僻词，则需要很大的开销。

基于Negative Sampling

为了解决Huffman树的缺点，提出了负采样算法。
negative sampling的原理是：如有一个训练样本，中心词为 $w_t$ ，其上下文为 $c_t=(w_{t-n},...,w_{t-1},w_{t+1},...,w_{t+n})$ ，这里中心词 $w_t$ 和 $c_t$ 是具有相关性的，作为正样本。然后通过采样得到 $n e g$ 个和 $w_t$ 不同的中心词 $w_i,i\in [1,2,...,neg]$ ，这些采样得到的中心词和 $c_t$ 就组成了负样本。最后利用这个正样本和 $n e g$ 个负样本进行二元逻辑回归，得到负采样对应每个词 $w_i$ 对应的模型参数 $\theta_i$ 和每个词的词向量。

如何进行负采样（negative sampling）?
假设词汇表的大小为 $V$ ，算法采用全局采样(除正样本之外的所有词)，将词频作为采样概率： $p(w)=\frac{count(w)}{\sum_{u\in vocab}count(u)}$ 而在word2vec中分子和分母都取了 $\frac{3}{4}$ 次幂： $p(w)=\frac{count(w)^{3/4}}{\sum_{u\in vocab}count(u)^{3/4}}$

负采样之后，接下来就是利用二元逻辑回归求解模型参数，对于正样本： $P(c_t,w_i)=\sigma(x_{c_t}^T\theta^{w_i}),y_i=1,i=0$ 对于负样本： $P(c_t,w_i)=1-\sigma(x_{c_t}^T\theta^{w_i}),y_i=0,i=1,2,...,neg$ 最后我们得到目标函数： $L=\sum_{i=0}^{neg}y_ilog(\sigma(x_{c_t}^T\theta^{w_i}))+(1-y_i)log(1-\sigma(x_{c_t}^T\theta^{w_i}))$
同样的，可以得到 $\theta^{w_i}$ 和 $x_{c_t}$ 的梯度 $\frac{\partial L}{\partial \theta^{w_i}}=(y_i-\sigma(x_{c_t}^T\theta^{w_i}))x_{c_t}$ $\frac{\partial L}{\partial x_{c_t}}=\sum_{i=0}^{neg}(y_i-\sigma(x_{c_t}^T\theta^{w_i}))\theta^{w_i}$ 有了梯度就可以进一步求解参数了。

CBOW的基于Negative Sampling的算法流程：

输入：基于CBOW的语料训练样本，词向量的维度大小 $M$ ，CBOW的上下文大小 $2 n$ ,步长 $\eta$ , 负采样的个数 $n e g$
输出：词汇表每个词对应的模型参数 $\theta$ ，所有的词向量 $w$
(1)、随机初始化所有的模型参数 $\theta$ ，所有的词向量 $w$
(2)、对于每个训练样本 $c_{t},w_0)$ ,负采样出 $n e g$ 个负例中心词 $w_i,i=1,2,...,neg$
(3)、进行梯度上升迭代过程，对于训练集中的每一个样本 $c_{t},w_0,w_1,...,w_{neg})$ 做如下处理：

e=0, 计算 $x_{w_0}=\frac{1}{2n}\sum_{i=1}^{2n}x_i$
for i = 0 to neg, 计算： $f=\sigma(x_{w_0}^T\theta^{w_i})$ $g=(y_i-f)\eta$ $e+g\theta^{w_i}$ $\theta^{w_i}=\theta^{w_i}+gx_{w_0}$
对于 $c_t$ 中的每一个词向量 $x_k$ (共 $2 n$ 个)进行更新： $x_k=x_k+e$
如果梯度收敛，则结束梯度迭代，否则回到步骤(3)继续迭代。

Skip-gram的基于Negative Sampling的算法流程：

输入：基于Skip-Gram的语料训练样本，词向量的维度大小 $M$ ，Skip-Gram的上下文大小 $2 n$ ,步长 $\eta$ , 采样的个数 $n e g$ 。
输出：词汇表每个词对应的模型参数 $\theta$ ，所有的词向量 $w$
(1)、随机初始化所有的模型参数 $\theta$ ，所有的词向量 $w$
(2)、对于每个训练样本( $c_t, w_0$ )，负采样出 $n e g$ 个负例中心词 $w_i,i=1,2,...,neg$
(3)、进行梯度上升迭代过程，对于训练集中的每一个样本( $c_t, w_0, w_1,...,w_{neg}$ )做如下处理：
1) for i = 1 to 2n:

e=0
for j = 0 to neg, 计算： $f=\sigma(x_{w_{0i}}^T\theta^{w_j})$ $g=(y_j-f)\eta$ $e=e+g\theta^{w_j}$ $\theta^{w_j}=\theta^{w_j}+gx_{w_{0i}}$
词向量更新： $x_{w_{0i}}=x_{w_{0i}}+e$

2) 如果梯度收敛，则结束梯度迭代，算法结束，否则回到步骤1)继续迭代。

参考资料：
《Efficient Estimation of Word Representations in Vector Space》
word2vec原理(一) 基于Hierarchical Softmax的模型
 word2vec原理(二) 基于Hierarchical Softmax的模型
 word2vec原理(三) 基于Hierarchical Softmax的模型

superY25

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语言模型【word2vec】学习笔记

本篇文章是阅读论文《Efficient Estimation of Word Representations in Vector Space》时做的笔记，以及自己的一个理解。欢迎指正。摘要：文章中提出了两个从大规模文本集中计算词的连续向量表示的模型框架。其模型的性能通过词的相似任务验证，并且将结果和之前效果最好的基于不同类型神经网络的技术作比较。结果显示在消耗更低计算资源的情况下效果更好。word2vec中有两个模型，分别是cbow和skip-gram。用于词的向量表示。...
复制链接

扫一扫

专栏目录