论文笔记之Efficient Estimation of Word Representations in Vector Space

Ton10

已于 2022-03-04 16:03:18 修改

阅读量3.3k

点赞数 7

分类专栏： NLP 文章标签：深度学习机器学习 NLP 人工智能 word2vec

于 2022-02-28 15:19:47 首次发布

本文链接：https://blog.csdn.net/MR_kdcon/article/details/123123294

版权

NLP 专栏收录该内容

5 篇文章

订阅专栏

这篇文章可以作为入门Word2vec的一篇论文，文章发表于2013年，其提供了NLP发展至今过程中比较著名的词向量模型之一，即skip-gram和CBOW模型。Word2Vec既可以实现相邻word具有相近的向量表示，又拥有丰富的语义信息。

参考：
①B站视频
②论文
③Word2vec 中的数学原理详解
④Word2Vec-知其然知其所以然

Efficient Estimation of Word Representations in Vector Space

1 Previous Model Architectures
- 1.1 Feedforward Neural Net Language Model(NNLM)
- 1.2 Recurrent Neural Net Language Model(RNNLM)
2 New Log-linear Models
- 2.1 Continuous Bag-of-Words Model
- 2.2 Continuous Skip-gram Model

1 Previous Model Architectures

语言模型的训练过程是一种无监督的的监督学习，意味着它不需要你去给样本做标签(无监督)，标签是可以直接从语料中进行使用的，故他又属于是一种监督学习。

1.1 Feedforward Neural Net Language Model(NNLM)

模型出处：论文A neural probabilistic language model
在这里插入图片描述
或者论文原图：

从图中我们需要得知以下信息：

输入是编号index是因为，语言模型中，有2个必要的过程是word2index和index2word，分别表示将词转换为数字编号index便于进行计算以及将输出的编号转换成对应的词word。
NNLM的训练也是不需要标签的。具体的训练过程一般如下：对于某个概率模型 $P(w_i|w_{t-1}, w_{t-1} ,\cdots w_{t-n})$ ，我们将词 $w_{t-1},w_{t-2},\cdots, w_{t-n}$ 对应的index输入的这个网络中，然后经过一些非线性层的计算，最后通过softmax层给出语料中各个词的概率(假设语料库中的规模为V，则输出层大小即为V)，我们选取第 $i$ 个，即最大概率的词 $w_i$ 为我们预测的词。模型的更新则取决于softmax的结果进行梯度上升即可。
监督过程是如何在没有标注的情况下进行呢？比如你在某个网站上下载下来的语料：春天的原野里，你一个人正走着，对面走过来一只可爱的小熊，浑身的毛活像天鹅绒，眼睛圆鼓鼓的。他这么对你说到道：“你好，小姐，和我一起打滚玩好么？”接着，你就和小熊抱在一起，顺着长满三叶草的山坡咕噜咕噜滚下去，整整玩了一天。那么你在训练的时候，比如第一句，春天的原野作为输入，里作为标签，其余的均如此操作。
输入层是将词映射成向量，相当于一个 $1\times V$ 的one-hot向量乘以一个 $V\times D$ 的矩阵得到一个 $1\times D$ 的向量：需要注意的是，在NNLM中输入的几个词是“concat”合并在一起的。
隐藏层是一个以 $t a n h$ 为激活函数的全连接层。
输出层是一个全连接层+softmax层。
语言模型困惑度和Loss有以下关系： $PP(s)=e^L$ ，具体推导如下：

1.2 Recurrent Neural Net Language Model(RNNLM)

循环神经网络模型下的语言模型和NNLM差不多，也是分为输入层、隐藏层和输出层(接softmax)。
在这里插入图片描述
Note：

RNNLM不需要马尔科夫假设，他直接就是利用过去的信息。

2 New Log-linear Models

定义：将语言模型的建立看成是一个多分类问题，相当于线性分类器加上softmax层：
$softmax(w\cdot x + b)$
语言模型的思想：句子中下一个词的出现和前面的词室友关系的，所以可以使用前面的词预测下一个词。
Word2vec的思想：句子中相近的词之间是有联系的。本文提出了2种模型：skip-gram、cbow模型。其中，skip-gram模型使用中心词预测周围词；cbow使用周围词预测中心词。

2.1 Continuous Bag-of-Words Model

在这里插入图片描述
连续词袋模型(CBOW)使用周围词来预测中心词，因此不同于Skip-gram模型需要2N个样本来训练，CBOW只要1个样本训练。之所以叫词袋模型，是因为输入部分的2N个周围词通过求和或者平均来得到中心词向量矩阵，故输入的词的顺序是无所谓的，故就像把这几个词放到袋子里一样，然后随便拿，随便顺序丢入网络训练。
具体分析如下：
在这里插入图片描述

上下文窗口内的几个词通过word2index转为语料库中的index，然后转为one-hot格式的向量，然后和 $V\times D$ 大小的周围词向量矩阵 $W$ 相结合，挑选得到2N(N为窗口大小)个大小为 $1\times D$ 的周围词向量。接着将他们进行求和或者求平均。之后和大小为 $D\times V$ 中心词向量矩阵代表的全连接层 $W^*$ 相结合，输入到softmax层中，输出一个 $1\times V$ 的概率矩阵。可以看出全程除了输出层以外都是线性运算，即Log-linear Models。
我们挑选出属于中心词 $W_i$ 的概率值做反向传播来训练2个词向量矩阵 $W,W^*$ , $W,W^*$ 就是我们要的词向量。其实最终需要的是 $W$ 或者 $\frac{W+W^*}{2}$ 。
设 $e_1,e_2,e_3,e_4$ 为上下文词，窗口为2， $v_c,v_j$ 为中心词向量。则 $u_0=sum(e_1,e_2,e_3,e_4)$ 表示窗口内上下文词向量之和； $p(c|o)=\frac{exp(u_0^Tv_c)}{\sum^V_{j=1}exp(u_0^Tv_j)}$ 表示上下文词作为条件下，中心词的概率，这也是我们要反向传播的目标。

2.2 Continuous Skip-gram Model

在这里插入图片描述
Skip-gram模型使用中心词预测周围词。如上图所示，定义窗口大小为2，即用中心词“下午”预测前后各2个词出现的概率。
不管什么语言模型，概率问题都可以看成是分类问题，比如上图中，就可以把 $w_{i-1}$ 看成是标签，而 $w_i$ 看成是输入。
具体分析如下：
在这里插入图片描述

Skip-gram模型使用中心词 $w_i$ 预测周围词 $w_{i-1}$ ，对于窗口为N的Skip-gram，周围词就有2N个。
如上图所示，每个中心词先转为语料库中的索引index，然后转为one-hot向量，接下来通过和 $V\times D$ 大小的全连接层结合输出 $w_i$ 的词向量。接着继续和周围词向量的全连接层结合并通过softmax层输出大小为 $1\times V$ 的一堆概率值，我们挑选出属于周围词 $W_{i-1}$ 的概率值做反向传播来训练2个词向量矩阵 $W,W^*$ 。
输出层的表达式： $p(w_{i-1}|w_i)=\frac{exp(u_{w_{i-1}}^Tv_{w_i})}{\sum^V_{w=1}exp(u^T_wv_{w_i})}.$ 其中， $u$ 为上下文词向量， $v$ 为中心词向量。需要注意的是，分子中 $u_{w_i-1}$ 是窗口内上下文词向量。
最后训练完的中心词向量矩阵可以取 $W$ 或者 $\frac{W+W^*}{2}.$
上图只有了一个周围词向量，那么对于一整个句子而言(假设长度为T)，目标函数为： $J(\theta)= \frac{1}{T}\sum^T_{t=1}\sum_{-m \leq j\leq m,j\ne 0}log p(w_{t+j}|w_t).$