NLP算法（一）- Word2Vec

最新推荐文章于 2024-06-03 17:09:28 发布

Anycall201

最新推荐文章于 2024-06-03 17:09:28 发布

阅读量355

点赞数

分类专栏： NLP算法文章标签：自然语言处理

本文链接：https://blog.csdn.net/anycall201/article/details/111569435

版权

NLP算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1 背景
- 1.1 算法提出
- 1.2 数学基础
2 模型
3 Hierachical霍夫曼编码
- 3.1 CBOW
- 3.2 SkipGram
4 负采样

1 背景

1.1 算法提出

词向量的概念提出之前，将语料库中的单词映射到向量空间的方式是one-hot编码。但one-hot编码的缺陷在于：

无效编码过多，空间利用率极低，后续使用中极大占用内存。
单词之间均为正交关系，与单词在实际使用过程中的规律相背。

因此，我们希望找到某种方法，将单词映射到向量空间中。且希望语义相近的单词对应向量相似度更高，语义无关的单词对应向量相似度更低。
在这一背景下，Word2Vec和Glove两种算法相继被提出，本文将讨论Word2Vec的实现。

1.2 数学基础

适用于解决二分类问题的Sigmoid函数
$\sigma(x) = \frac{1}{1+e^{-x}}$

该函数具有如下几个性质
$\begin{aligned} &1-\sigma(x) = \sigma(-x) \quad &(1.1) \\ &log^{'}[\sigma(x)] = 1-\sigma(x) \quad &(1.2) \\ &log^{'}[1-\sigma(x)] = -\sigma(x) \quad &(1.3) \end{aligned}$

2 模型

Word2Vec的想法是，认为一篇文档中，在一定范围内位置相邻的单词具有某种关联性。且语义相近的不同单词，其上下文的内容也相近。
因此，

通过一单词的上下文预测该中心词可建立模型，即为CBOW。
通过一单词预测其上下文可建立模型，即为SkipGram。

2.1 CBOW模型

CBOW(continuous bag-of-words)模型结构如下所示。
CBOW模型
用符号 $C$ 表示包含所有文档的语料库， $w$ 表示中心词， $c o n t e x t (w)$ 表示中心词 $w$ 的上下文，该模型希望最大化
$\begin{aligned} L &= \prod_{w\in{C}} {p(w|context(w))} &= \prod_{w\in{C}} \frac{exp[p(w|context(w)]}{\sum_{z\in{V}}exp[p(z|context(w)]} \end{aligned}$

2.1 SkipGram模型

SkipGram模型结构如下所示。
Skip-Gram
用符号 $C$ 表示包含所有文档的语料库， $w$ 表示中心词， $c o n t e x t (w)$ 表示中心词 $w$ 的上下文，该模型希望最大化
$\begin{aligned} L &= \prod_{w\in{C}} {p(context(w)|w)} = \prod_{w\in{C}} \prod_{u\in{context(w)}} p(u|w) \\ &= \prod_{w\in{C}} \prod_{u\in{context(w)}} \frac{exp[p(u|w)]}{\sum_{z\in{V}}exp[p(z|w)]} \end{aligned}$

2.3 算法优化

在模型实际计算中，由于词表往往很大，输出层在计算 $\sum_{z\in{V}}exp[p(z|context(w)]$ 或 $\sum_{z\in{V}}exp[p(z|w)]$ 时，把词表中所有单词的相应概率计算一遍代价过高。因此，需要通过优化提升计算效率。

3 Hierachical霍夫曼编码

通过语料库构建词表，根据各单词词频，可将所有单词通过霍夫曼编码表示，其中每个叶子节点对应词表中的各单词。

3.1 CBOW

CBOW结合霍夫曼树改动后的模型如下所示
CBOW-Huffman
在具体介绍该模型算法时，先引入相关记号：

$p^w$ ：从根节点出发，到达w对应叶子节点的路径。
$l^w$ ：路径 $p^{w}$ 包含节点的个数。
$p^w_{l^0},p^w_{l^1},\dots,p^w_{l^w-1}$ ：路径 $p^{w}$ 中各节点。其中 $p^w_{l^0}$ 表示根节点， $p^w_{l^w-1}$ 表示单词 $w$ 对应的叶子节点。
$d^w_{1},d^w_{2},\dots,d^w_{l^w-1} \in{\{0,1\}}$ ：单词 $w$ 的霍夫曼编码，共 $l^w-1$ 位。 $d^w_j$ 表示第 $j$ 位对应编码，树的根节点没有编码。
$\theta^w_1, \theta^w_2,\dots, \theta^w_{l^w-1}$ ：路径 $p^w$ 中非叶子节点对应向量， $\theta^w_{l^w-1}$ 即为我们最终需要获得的词向量。

假设 $c o n t e x t (w)$ 对应的词向量为 $x_w$ , $f(x_w,\theta^w_j)$ 。
根据霍夫曼树的性质，每个单词 $w$ 必存在唯一一条路径 $p^w$ 。该路径上存在 $l^w-1$ 个分支，可以将其看成做了 $l^w-1$ 次二分类，每次分类产生一个概率，这些概率的累乘即为最终的 $p (w ∣ c o n t e x t (w)$ 。

也即
$\prod_{j=1}^{l^w-1} {p(d_j^w|x_w,\theta^w_j)}$

利用Sigmoid函数，做出如下假设
$\begin{aligned} p(d_j^w|x_w,\theta^w_j) = \left\{ \begin{matrix} &\sigma(x_w^T\theta^w_j) \quad &(d^w_j=0) \\ &1-\sigma(x_w^T\theta^w_j) \quad &(d^w_j=1) \\ \end{matrix} \right. \end{aligned}$

因此，模型的损失函数可写为
$\begin{aligned} L &= log \prod_{w\in{C}} \prod_{j=1}^{l^w-1} {[\sigma(x_w^T\theta^w_j)]^{1-d^w_j}*[1-\sigma(x_w^T\theta^w_j)]^{d^w_j}} \\ &= \sum_{w\in{C}} \sum_{j=1}^{l^w-1} {(1-d^w_j)log[\sigma(x_w^T\theta^w_j)] + d^w_jlog[1-\sigma(x_w^T\theta^w_j)]} \end{aligned}$

上式中各变量均相互独立，记
$L(x_w,\theta^w_j) = (1-d^w_j)log[\sigma(x_w^T\theta^w_j)] + d^w_jlog[1-\sigma(x_w^T\theta^w_j)]$

分别对 $x_w,\theta^w_j$ 求导，并利用Sigmoid函数求导时的性质
$\begin{aligned} \nabla_{\theta^w_j}L(x_w,\theta^w_j) &= (1-d^w_j)[1-\sigma(x_w^T\theta^w_j)]x_w - d^w_j\sigma(x_w^T\theta^w_j)x_w \\ &= [1-d^w_j-\sigma(x_w^T\theta^w_j)]x_w \end{aligned}$

$\begin{aligned} \nabla_{x_w}L(x_w,\theta^w_j) &= (1-d^w_j)[1-\sigma(x_w^T\theta^w_j)]\theta^w_j - d^w_j\sigma(x_w^T\theta^w_j)\theta^w_j \\ &= [1-d^w_j-\sigma(x_w^T\theta^w_j)]\theta^w_j \end{aligned}$

之后通过梯度上升法更新相应参数即可， $\theta^w_{l^w-1}$ 即为最终需要获得的词向量。

3.2 SkipGram

SkipGram结合霍夫曼树改动后的模型如下所示
Skip-Gram-Huffman
该方法的思路与CBOW完全一样，只因模型结构略有不同，通过霍夫曼树表示的概率变为 $p (u ∣ w)$ 。
其计算方法与之前类似，将路径上各节点的概率累乘
$\begin{aligned} p(u|w) &= \prod_{j=1}^{l^u-1} {p(d^u_j|v(w),\theta^u_j)} \\ &= \prod_{j=1}^{l^u-1} {[\sigma(v(w)^T\theta^u_j)]^{1-d^u_j}*[1-\sigma(v(w)^T\theta^u_j)]^{d^u_j}} \end{aligned}$

模型损失函数可写为
$\begin{aligned} L &= log \prod_{w\in{C}} \prod_{u\in{context(w)}} \prod_{j=1}^{l^u-1} {[\sigma(v(w)^T\theta^u_j)]^{1-d^u_j}*[1-\sigma(v(w)^T\theta^u_j)]^{d^u_j}} \\ &= \sum_{w\in{C}} \sum_{u\in{context(w)}} \sum_{j=1}^{l^u-1} {(1-d^u_j)log[\sigma(v(w)^T\theta^u_j)] + d^u_jlog[1-\sigma(v(w)^T\theta^u_j)]} \end{aligned}$

记
$L(v(w),\theta^u_j) = (1-d^u_j)log[\sigma(v(w)^T\theta^u_j)] + d^u_jlog[1-\sigma(v(w)^T\theta^u_j)]$

分别对 $v(w),\theta^u_j$ 求导
$\nabla_{\theta^u_j}L(v(w),\theta^u_j) = [1-d^u_j-\sigma(v(w)^T\theta^u_j)]v(w)$

$\nabla_{v(w)}L(v(w),\theta^u_j) = [1-d^u_j-\sigma(v(w)^T\theta^u_j)]\theta^u_j$

之后通过梯度上升法更新相应参数即可， $\theta^w_{l^w-1}$ 即为最终需要获得的词向量。

4 负采样

除了利用霍夫曼编码的性质优化计算，还可利用负采样方式简化计算。

4.1 负样本

该方法的本质是利用已知概率密度函数预测未知的概率密度函数。

CBOW模型中，对于给定的上下文 $c o n t e x t (w)$ ，将中心词 $w$ 看成是一个正样本，其他单词为负样本。
SkipGram模型中，对于给定的中心词 $w$ ，将 $c o n t e x t (w)$ 中的所有单词看成正样本，其他单词为负样本。

为了拟合 $p (w ∣ c o n t e x t (w))$ 或 $p (c o n t e x t (w) ∣ w)$ ，以语料库中各单词词频为权重，做带权重的随机采样，取出 $K$ 个负样本。

4.2 CBOW

在CBOW模型中，通过正样本和负样本的结合，拟合
$\frac{exp[p(w|context(w)]}{\sum_{z\in{V}}exp[p(z|context(w)]} \approx p(w|context(w))\prod_{u\in{NEG(w)}}{p(u|context(w))}$

记单词 $w$ 对应的词向量为 $\theta_w$ ，上下文对应向量为 $x_w$
$\begin{aligned} p(u|context(w)) &= \left\{ \begin{matrix} &\sigma(x^T_w\theta_u) &\quad (u=w) \\ &1-\sigma(x^T_w\theta_u) &\quad (u\neq w) \end{matrix} \right. \\ &= [\sigma(x^T_w\theta_u)]^{\delta(u-w)}[1-\sigma(x^T_w\theta_u)]^{1-\delta(u-w)} \end{aligned}$

由此可得模型的损失函数
$\begin{aligned} L &= log \prod_{w\in{C}} \prod_{u\in{\{w,NEG(w)\}}} [\sigma(x^T_w\theta_u)]^{\delta(u-w)}[1-\sigma(x^T_w\theta_u)]^{1-\delta(u-w)} \\ &= \sum_{w\in{C}} \sum_{u\in{\{w,NEG(w)\}}} \delta(u-w)log[\sigma(x^T_w\theta_u)] + [1-\delta(u-w)]log[1-\sigma(x^T_w\theta_u)] \end{aligned}$

定义
$L(x_w, \theta_u) = \delta(u-w)log[\sigma(x^T_w\theta_u)] + [1-\delta(u-w)]log[1-\sigma(x^T_w\theta_u)]$

分别对 $x_w, \theta_u$ 求导
$\begin{aligned} \nabla_{\theta_u}L(x_w,\theta_u) &= \delta(u-w)[1-\sigma(x^T_w\theta_u)]x_w- [1-\delta(u-w)]\sigma(x^T_w\theta_u)x_w \\ &= [\delta(u-w)- \sigma(x^T_w\theta_u)]x_w \end{aligned}$

$\begin{aligned} \nabla_{x_w}L(x_w,\theta_u) &= \delta(u-w)[1-\sigma(x^T_w\theta_u)]\theta_u- [1-\delta(u-w)]\sigma(x^T_w\theta_u)\theta_u \\ &= [\delta(u-w)- \sigma(x^T_w\theta_u)]\theta_u \end{aligned}$

之后通过梯度上升法更新相应参数即可， $\theta_w$ 即为最终需要获得的词向量。

4.3 SkipGram

在SkipGram模型中，通过正样本和负样本的结合，拟合
$\frac{exp[p(u|w)]}{\sum_{z\in{V}}exp[p(z|w)]} \approx p(v(z)|w) \prod_{z\in{NEG(context(w))}}{p(v(z)|w)}$

记中心词 $w$ 对应的词向量为 $\theta_w$ ，在上下文中的单词 $z$ 对应向量为 $v (w)$
$\begin{aligned} p(v(z)|w) &= \left\{ \begin{matrix} &\sigma(v(z)^T\theta_w) &\quad (z=w) \\ &1-\sigma(v(z)^T\theta_w) &\quad (z\neq w) \end{matrix} \right. \\ &= [\sigma(v(z)^T\theta_w)]^{\delta(z-w)} [1-\sigma(v(z)^T\theta_w)]^{1-\delta(z-w)} \end{aligned}$

由此可得模型的损失函数
$\begin{aligned} L &= log \prod_{w\in{C}} \prod_{u\in{context(w)}} \prod_{z\in{\{w,NEG(context(w))\}}} [\sigma(v(z)^T\theta_w)]^{\delta(z-w)} [1-\sigma(v(z)^T\theta_w)]^{1-\delta(z-w)} \\ &= \sum_{w\in{C}} \sum_{u\in{context(w)}} \sum_{z\in{\{w,NEG(context(w))\}}} \delta(z-w)log[\sigma(v(z)^T\theta_w)] + [1-\delta(z-w)]log[1-\sigma(v(z)^T\theta_w)] \end{aligned}$

定义
$\theta_w) = \delta(z-w)log[\sigma(v(z)^T\theta_w)] + [1-\delta(z-w)]log[1-\sigma(v(z)^T\theta_w)]$

分别对 $\theta_w$ 求导
$\begin{aligned} \nabla_{\theta_w}L(v(z), \theta_w) &= \delta(z-w)[1-\sigma(v(z)^T\theta_w)]v(z)- [1-\delta(z-w)]\sigma(v(z)^T\theta_w)v(z) \\ &= [\delta(z-w)- \sigma(v(z)^T\theta_w)]v(z) \end{aligned}$

$\begin{aligned} \nabla_{v(z)}L(v(z),\theta_w) &= \delta(z-w)[1-\sigma(v(z)^T\theta_w)]\theta_w- [1-\delta(z-w)]\sigma(v(z)^T\theta_w)\theta_w \\ &= [\delta(z-w)- \sigma(v(z)^T\theta_w)]\theta_w \end{aligned}$

之后通过梯度上升法更新相应参数即可， $\theta_w$ 即为最终需要获得的词向量。

Anycall201

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
NLP算法（一）- Word2Vec

文章目录1 背景1.1 算法提出1.2 数学基础2 模型2.1 CBOW模型2.1 SkipGram模型2.3 算法优化3 Hierachical霍夫曼编码3.1.1 CBOW3.2 SkipGram4 负采样4.1 负样本4.2 CBOW4.3 SkipGram1 背景1.1 算法提出词向量的概念提出之前，将语料库中的单词映射到向量空间的方式是one-hot编码。但one-hot编码的缺陷在于：无效编码过多，空间利用率极低，后续使用中极大占用内存。单词之间均为正交关系，与单词在实际使用过程中的
复制链接

扫一扫