word2vec 词向量_word2vec产生的词向量的局限性有哪些-CSDN博客

本文链接：https://blog.csdn.net/klaas/article/details/51890300

学习stanford的cs224d–deep learning for natural language processing, 顺便记录一下学习word2vec重要的知识点. word2vec 最先出现在谷歌工程师Mikolov在2013年的NIPS会议发表的一篇文章. 相比与传统的自然语言处理, 其优点是利用向量空间使词的表达更加方便, 并且在惯用词组的表达上更加powerful.

摘要由CSDN通过智能技术生成

词向量基础
Iteration Based Methods
Approximation Negative Sampling
Training
The end

最近在学习stanford的cs224d–deep learning for natural language processing, 顺便记录一下学习word2vec重要的知识点. word2vec 最先出现在谷歌工程师Mikolov在2013年的NIPS会议发表的一篇文章. 相比与传统的自然语言处理, 其优点是利用向量空间使词的表达更加方便, 并且在惯用词组的表达上更加powerful.

词向量基础

首先看最简单的one-hot vector , 假设词库的容量是 $V$ , 那么每一个词都是一个 $R^{|V| \times 1}$ 的向量. 显然这个维度很大, 而根据统计, 英语中有13 million的token, 这样表达十分消耗内存. 而且 $w(a)^T w(b) = 0$ (每个向量都是正交的) , 也就是说词与词之间的相关性都是0, 这显然与常识相违背,比如father和mother, hotel和room之间肯定是存在一定的相关性的, 必须作出修正(降维…)来更好的进行词的表达.

首先考虑如何表达词, 采用矩阵的方法通常有两种, 一种是Word-Document Matrix, 另外一种是Window besed Co-occurrence Matrix, 我们只讨论第二种, 因为第一种的矩阵太大, 计算量太大.

Window based Co-occurrence Matrix
首先, 这种方法是基于语料库中的每个句子进行操作的, 然后设定一个窗的长度, 在中心词的左边右边都加窗, 计算窗中的词伴随中心词出现的频数, 构造一个矩阵. 以一个例子为例:窗为1, 句子个数为3
1. I enjoy flying
2. I like NLP
3. I like deep learning
  因此, 这个矩阵表达为
  
  可以发现, like 和 enjoy的相关性明显就高于I 和 like. 这样的矩阵还是太稀疏, 下面采用 $SVD$ 的方法进行降维.
SVD(singular value decomposition)
根据线性代数的理论, 一个方阵可以做如下分解:

$A m n = U m m S m n V T n n$ $A_{mn} = U_{mm} S_{mn} V_{nn}^T$
其中, $U_{mm}$ , $V_{nn}$ 分别是 $AA^T$ 和 $A^TA$ 的正交特征向量构成的正交矩阵, $S_{mn}$ 是一个对角元素是 $U,V$ 矩阵的特征值平方根按从小到大排列的对标矩阵. 最终我们取U作为降维后的矩阵. 一个简单的可视化如图.

当然,语料库太小,这张图还不是很能够说明问题.

目前为止, 基于SVD的方法有如下的缺点:
1. 新词加入的时候矩阵的维度要改变
2. 矩阵过于稀疏, 因为大多数词是不相关的
3. 矩阵维度过大 $(\approx 10^6 \times 10^6)$
4. 训练时间过长, $o(n^2)$
5. 需要一些技巧来解决词频的不均衡性

下面,采用基于迭代(Iteration besed)的方法来解决以上问题.

Iteration Based Methods

Language Models(Unigrams, Bigrams, etc.)
首先, 构造一个模型来衡量一个序列(句子)出现的概率. 如The cat jumped over the puddle. 显然,这个句子语法语义都是正确的. 数学上来说, 一个由 n 个词组成的序列的概率是 P(w1,w2,...,wn) .
1. 一元模型 Unigram model
  $P (w 1, w 2, . . ., w n) = \prod i = 1 n P (w i)$ $P(w_1, w_2, ..., w_n) = \prod_{i=1}^nP(w_i)$
  显然, 它假设了所有词的出现概率都是彼此独立的,因此当我们把一些词频较高的词组合在一起构成一个愚蠢的句子的时候, 它出现的概率仍然很高.
2. 二元模型 Bigram model
  $P (w 1, w 2, . . ., w n) = \prod i = 1 n P (w i | w i - 1)$ $P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_{i-1})$
  实际上, 词与词之间存在相关性, 下一时刻的词极有可能依赖于上一时刻的词.
3. 词向量 word2vec
  二元模型只考虑了局部的相关性, 并且需要计算/存储一个大的数据库的全部信息. 于是word2vec出现了. word2vec的主要思想是不直接计算词与词之间的相关性, 而是通过计算每个词周围包围的词(surrounding words)来得到词向量.
  $P (o | c) = e x p ( u T o v c ) \sum W w = 1 e x p ( u T w v c )$ $P(o|c) = \frac{exp(u_o^Tv_c)}{\sum_{w=1}^W exp(u_w^Tv_c)}$
  其中, c是中心词, o 是输出词, u和v分别代表输出和输入向量.(注意:一个词作为中心词和非中心词表示的向量是不一样的.)
  通过极大似然估计的方法来训练得到词向量, 目标函数
  $J (θ) = 1 T \sum t = 1 T \sum - m \leq j \leq m, j \neq 0 l o g P (o | c)$ $J(\theta) = \frac{1}{T} \sum_{t=1}^{T} \sum_{-m\leq j \leq m, j \neq 0} log P(o|c)$
4. Glove(#TODO: 待补充)
  $J (θ) = 1 2 \sum i, j = 1 W f (P i j) (u T i v j - l o g P i j) 2$ $J(\theta) = \frac{1}{2}\sum_{i,j=1}^W f(P_{ij})(u_i^Tv_j - logP_{ij})^2$

下面讲两个word2vec的模型

Continuous Bag of Words Model(CBOW)
简而言之,就是已知通过周围的词来预测中心词.主要元素是输入矩阵和输出矩阵.计算过程如下
1. generate input context of size m: $(x^{c-m}, ... ,x^{c-1},x^{c+1},...,x^{c+m})$
2. get embedded word vectors: (vc−m