CS224N 2019 笔记 Week 1

最新推荐文章于 2024-05-22 18:28:09 发布

Ninja Lin

最新推荐文章于 2024-05-22 18:28:09 发布

阅读量340

点赞数

分类专栏： CS224N 文章标签： NLP CS224N

本文链接：https://blog.csdn.net/ambroselin0/article/details/88671301

版权

CS224N 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在文字的使用上，存在着大量的Synonyms（同义词），比如good、great、marvelous。把这些Synonyms归位同一类，会导致细节的损失。人们从一大堆words中选择word是一个很主观的行为，对词汇的相似性作出准确的定义是非常难的。
通常在NLP中，会将每一个word作为独立的个体，使用one-hot编码对word进行编码，有多少words就有多少长度的编码（对英语来说，speech有20k的words，翻译系统有50k的words），one-hot编码的缺点中在于不能体现出word与word的关联性，因为两个word之间one-hot编码的乘积为0。
要找到一种方法，可以通过点乘两个向量的方法来体现两个word的关联性。Word2Vec使用了Distributional Similarity（分布相似性），通过观察一个句子中某个word上下文的word来得到这个word的值，并且编码为Distributed Representation。

Distributional Similarity是一个关于词汇语义的理论。
Distributed Representation是一种编码方式与one-hot相反。

Word2Vec

有两种常见的算法：

Skip-Grams：通过中心词（center word）预测周围的词（context word）。
Continuous Bag of Words（CBOW）：通过周围的词预测中心词。

这里介绍没有经过优化的Skip-Grams。

Skip-Gram

定义一个模型，根据一个word $W_t$ 来预测上下文context：
$P(context|W_t)= ...$
这个模型的损失函数为：
$J=1-P(W_{-t}|Wt)$
这里的 $W_{-t}$ 是 $W_t$ 周围的words。

注意这里实际上并没有上文和下文的区别， $W_t$ 前面的word和后面的word对于 $W_t$ 的意义是相同的。

模型架构

目标函数

$\theta$ 是训练参数，目标就是Maximum Likelihood：
$\max J'(\theta)=\prod_{t=1}^T\prod_{-m\leq j \leq m,j\neq0}P(W_{t+j}|W_{t};\theta) \tag{equation1}$
这里可以对1式通过添加log对连乘进行优化，使之在计算机上计算更加方便（连乘会导致精度不够）：
$\begin{aligned} equation1 \simeq & \max \log_{} \prod_{t=1}^T\prod_{-m\leq j \leq m,j\neq0}P(W_{t+j}|W_{t};\theta)\\ =& \max \sum_{t=1}^T\sum_{-m\leq j \leq m,j\neq0}\log_{}P(W_{t+j}|W_{t};\theta)\\ \simeq & \max \frac{1}{T} \sum_{t=1}^T\sum_{-m\leq j \leq m,j\neq0}\log_{}P(W_{t+j}|W_{t};\theta)\\ =& \min - \frac{1}{T} \sum_{t=1}^T\sum_{-m\leq j \leq m,j\neq0}\log_{}P(W_{t+j}|W_{t};\theta) \end{aligned}$
所以目标转化为Minimum Average Negative Log Likelihood：
$\min J(\theta) = \min - \frac{1}{T} \sum_{t=1}^T\sum_{-m\leq j \leq m,j\neq0}\log_{}P(W_{t+j}|W_{t};\theta) \tag{euqation2}$
定义P为：
$\frac{\exp(u_o^T v_c)}{\sum_{i=1}^{V}\exp(u_i^T v_c)}$
这里的 $\theta$ 是由 $u$ 、 $v$ 这些向量组成的。
这里的 $o$ 和 $c$ 是word在对应one-hot编码的index， $u_o$ 表示上下文向量， $v_c$ 表示中心词向量。 $u_o^T v_c$ 的乘积越大，表示这两个字的相关性越高。

优化目标函数

重新表示2式中的 $P$ ：
$J(\theta) = -\frac{1}{T} \sum_{t=1}^T\sum_{-m\leq j \leq m,j\neq0}\log_{}\frac{\exp(u_o^T v_c)}{\sum_{i=1}^{V}\exp(u_i^T v_c)}$

计算 $\frac{\partial}{\partial v_c}$

把log那一部分提取出来，对 $v_c$ 做偏微分：
$\begin{aligned} \frac{\partial}{\partial v_c} \log_{} \frac{\exp(u_o^T v_c)}{\sum_{i=1}^{V} \exp(u_i^T v_c)} = \frac{\partial}{\partial v_c}\log_{}\exp(u_o^Tv_c) - \frac{\partial}{\partial v_c}\log_{}\sum_{i=1}^{V}\exp(u_i^T v_c) \end{aligned}\tag{equation3}$
把3式分成两个部分处理：
$\begin{aligned} equation3 =& equation4 - equiation5\\ equation 4 =& \frac{\partial}{\partial v_c} \log_{}\exp(u_o^Tc_c)\\ =& \frac{\partial}{\partial v_c} u_o^T v_c\\ =& u_o\\ equation 5 =& \frac{\partial}{\partial v_c} \log_{} \sum_{i=1}^{V} \exp(u_i^T v_c)\\ =& \frac{1}{\sum_{i=1}^{V} \exp(u_i^T v_c)} \frac{\partial}{\partial v_c} \sum_{x=1}^{V} \exp(u_x^T v_c)\\ =& \frac{1}{\sum_{i=1}^{V} \exp(u_i^T v_c)} \sum_{x=1}^{V} \exp(u_x^T v_c) \frac{\partial}{\partial v_c} u_x^T v_c\\ =& \frac{1}{\sum_{i=1}^{V} \exp(u_i^T v_c)} \sum_{x=1}^{V} \exp(u_x^T v_c) u_x\\ =& \sum_{x=1}^{V} \frac{\exp(u_x^T v_c)}{\sum_{i=1}^{V} \exp(u_i^T v_c)} u_x\\ =& \sum_{x=1}^{V} P(x|c) u_x \end{aligned}$
综合4、5式，
$u_o - \sum_{x=1}^{V} P(x|c) u_x$
前面一项代表的是输出的context vector，后面一项代表的是对于center word来说的每一个可能出现的context vector的加权期望。

计算 $\frac{\partial}{\partial u_o}$

和上面一样：
$\begin{aligned} \frac{\partial}{\partial u_o} \log{} \frac{\exp(u_o^T v_c)} {\sum_{i=1}^{V} \exp(u_i^T v_c)} =& \frac{\partial}{\partial u_o} \log{}\exp(u_o^T v_c) - \frac{\partial}{\partial u_o}\sum_{i=1}^{V} \log{}\exp(u_i^T v_c) \\ =& \frac{\partial}{\partial u_o} u_o^T v_c - \frac{\partial}{\partial u_o}\sum_{i=1}^{V}\log{} \exp(u_i^T v_c) \\ =& v_c - \frac{1}{\sum_{i=1}^{V}\exp(u_i^T v_c)}\sum_{x=1}^{V}\frac{\partial}{\partial u_o}\exp(u_x^T v_c)\\ =& v_c - \frac{\exp(u_o^T v_c)v_c}{\sum_{i=1}^{V}\exp(u_i^Tv_c)} \end{aligned}$