斯坦福CS224n课程笔记1-introduction and Word vectors 2019

本文链接：https://blog.csdn.net/shine19930820/article/details/94414273

Human language and word meaning

语言是一个低带宽的信息传输方式，相比于5G，这决定了语言的熵会很高。

How do we have usable meaning in a computer?

one-hot的字词表示：

词语维度是很高的，而且有很多衍生的词语，接近于无限的维度。
词语之间没有相似度，即one-hot向量是正交的，相似词语和不相似词语之间都是正交关系。

WordNet

一个工具，来获取词语的同义词、hypernyms ( is a relation, eg. panda is a procyonid, ), 缺点：

缺少细微差别
1. 例如，某些情况下，proficient才是good的同义词，即特定的上下文。
缺少新词，难以实时更新：
主观、需要人力创建和修改，不能计算词语相似度。

分布式表达

使用词语周围的词语来表示其的意义。

Distributional semantics: A word’s meaning is given by the words that frequently appear close-by 、

使用此种方式训练神经网络得到词向量表达，并将其降维到2D，可视化的效果：

可以看到，are, is, were距离很近，向量相似度较高，而实际也是如此。

在这里插入图片描述

那么，问题来，怎么训练词向量呢？

Word2vec introduction

在这里插入图片描述

skip-gram：使用中心词语，来预测周围的词语。

最大化似然，目标是对于正确的上下文的词语，给出概率最大, $\theta$ 是参数：
$L(\theta) = \prod_{t=1}^{T} \prod_{-m \leq j \leq m \atop j \neq 0} P\left(w_{t+j} | w_{t} ; \theta\right)$
目标函数，注意加了负号，所以是最小化目标函数：
$J(\theta)=-\frac{1}{T} \log L(\theta)=-\frac{1}{T} \sum_{t=1}^{T} \sum_{-m \leq j \leq m \atop j \neq 0} \log P\left(w_{t+j} | w_{t} ; \theta\right)$
那么如何计算概率 $P(w_{i+j}|w_t;\theta)$ ?

对于每个词语都有两个向量：
- w作为中心词的向量 $v_w$
- w作为上下文的向量 $u_w$
对于中心词语c，上下文词语o：

$c)=\frac{\exp \left(u_{o}^{T} v_{c}\right)}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)}$

那么，参数空间为 $\theta \in R^{2d*v}$ ，其实就是词向量。v是单词个数，v是词向量维度。含义是中心词的词向量和上下文的词向量越相似，其概率就越大。那么想同上下文的词语，他们的词向量也就越相似（因为他们的中心词向量都和上下文词向量相似，他们之间也就相似）。

那么如何通过梯度下降优化呢，
$\frac{\partial}{\partial v_{c}} J(\theta)=-\frac{1}{T} \sum_{t=1}^{T} \sum_{-m \leq j \leq m \atop j \neq 0} \frac{\partial}{\partial v_{c}} \log P\left(w_{t+j} | w_{t} ; \theta\right)$
其中：
$\begin{array}{c}{\frac{\partial}{\partial v_{c}} \log P(o | c)=\frac{\partial}{\partial v_{c}} \log \frac{\exp \left(u_{o}^{T} v_{c}\right)}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)}} \\ {=\frac{\partial}{\partial v_{c}} \operatorname{logexp}\left(u_{o}^{T} v_{c}\right)-\frac{\partial}{\partial v_{c}} \log \sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)}\end{array}$
对两项分别求偏导：

第一项： $\frac{\partial}{\partial v_{c}} \operatorname{logexp}\left(u_{o}^{T} v_{c}\right)=u_{o}$

第二项复杂一些，需要用到链式法则，将log(x)看做一个整体展开：
$\frac{\partial}{\partial v_{c}} \log \sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right) = \frac{1}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)} * \frac{\partial}{\partial v_{c}} ( \sum_{x \in V} \exp \left(u_{x}^{T} v_{c}\right)) \\ = \frac{1}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)} * \sum_{x \in V} \frac{\partial}{\partial v_{c}} ( \exp \left(u_{x}^{T} v_{c}\right) ) \\ = \frac{1}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)} * \sum_{x \in V} \exp \left(u_{x}^{T} v_{c}\right) \frac{\partial}{\partial v_{c}} ( u_{x}^{T} v_{c} ) \\ = \frac{\sum_{x \in V} \exp \left(u_{x}^{T} v_{c}\right) u_{x}}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)} \\ = \sum_{x \in V} P(x | c) u_{x}$
最终：
$\frac{\partial}{\partial v_{c}} \log P(o | c) = u_o - \sum_{x \in V} P(x | c) u_{x}$
理解为在中心词c的情况下，预测的上下文单词和实际上下文单词向量（ $u_o$ ）的差异，