cs224笔记：Lecture 1 Introduction and Word Vectors

最新推荐文章于 2020-06-24 16:42:34 发布

扬州小栗旬

最新推荐文章于 2020-06-24 16:42:34 发布

阅读量243

点赞数 2

分类专栏： CS224n NLP with DL 文章标签： cs224

本文链接：https://blog.csdn.net/weixin_37616971/article/details/100762484

版权

CS224n NLP with DL 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Lecture 1: Introduction and Word Vectors

Representing words as discrete symbols

在传统NLP使用discrete symbols表示词，即one-hot编码，各个单词向量之间是**正交(orthogonal)的，因此没有相似性(similarity)的概念。例如：
$motel = [0,0,0,0,1,0,0]^T\\ hotel = [0,0,0,0,0,1,0]^T$
显然motel和hotel是语义相近的两个词汇，我们希望用余弦相似度(cosine similarity)**来表示两个词汇的语义，但是由于两个向量是正交的，所以没有相似度的概念。

Word vectors

引入词向量，使用稠密的向量(dense vector)表达词，这样词之间引入了相似性的概念。

Word2vec: Overview

Mikilov在2013年提出了Word2vec 的框架Distributed representations of words and phrases and their compositionality ，用来学习词向量。

Idea：

我们有大量的语料库(corpus)
每个单词对应着向量空间的一个唯一的向量
遍历文本，每个单词center $c$ 周围的单词构成它的context $o$
使用词向量的相似度计算给定center $c$ ，context $o$ 的概率，即 $P (o ∣ c)$
不断的调整词向量，以最大化这些概率

所以目标就是最大化似然函数，**似然函数(Likelihood)**定义如下：
$Likelihood:\quad L(\theta)=\prod_{t=1}^T\prod_{-m\le j \le m}P(w_{t+j}|w_t;\theta)$
其中 $\theta$ 代表所有要优化的变量， $m$ 代表context的大小或者说窗口的大小。

便于机器学习算法优化，将上式稍加转换，变成我们的目标函数(objective function)：Average Negative Log Likelihood：
$\quad J(\theta)=-\frac{1}{T}\sum_{t=1}^{T}\sum_{-m\le j \le m}\log{P(w_{t+j}|w_t;\theta)}$
最后只剩下一个问题，如何计算 $P(w_{t+j}|w_t;\theta)$

这里引入两个向量：对于词汇表(vocabulary)中的每个单词w，使用 $d$ 维向量 $v_w$ 表示当 $w$ 是center单词的时候，使用 $u_w$ 表示当 $w$ 是context单词的时候。

所以对于给定center 单词 c，context 单词o：
$P(o|c)=\frac{exp(u_o^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}$
其中 $V$ 代表词汇表(vocabulary)， $u_o^Tv_c$ 即向量的点积(dot product)，点积的大小暗示了o与c之间的相似度，这里引入指数的目的是最后生成规范的概率(softmax的概念)。

目标函数有了，接下来就剩**优化(optimization)**目标函数了，即不断的调整参数以最小化目标函数，这里的目标函数也通常被称作损失函数(loss function)或者代价函数(cost function)。
$\quad J(\theta)=-\frac{1}{T}\sum_{t=1}^{T}\sum_{-m\le j \le m}\log{P(w_{t+j}|w_t;\theta)}$
首先，给出 $\theta$ ，这里就是上面所讲的两类向量：
$\theta=[v_a,v_{abandon},...,v_{zebra},u_a,u_{abandon},...u_{zebra}]^T \\ \theta\in \mathbb{R}^{2d|V|}$
其中 $d$ 是每个向量的维度， $∣ V ∣$ 是vocabulary的大小(每个单词都有2个向量)

所以我们优化的目标如下:
$Minimize:\quad \quad J(\theta)=-\frac{1}{T}\sum_{t=1}^{T}\sum_{-m\le j \le m}\log{P(w_{t+j}|w_t)}\\ \lgroup P(o|c)=\frac{exp(u_o^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}\rgroup$
方法是经典的梯度下降(Gradiant Descent)算法：
$\begin{aligned} \frac{\partial}{\partial v_c}\log\frac{exp(u_o^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}&=\frac{\partial}{\partial v_c}\log exp(u_o^Tv_c)-\frac{\partial}{\partial v_c}\log \sum_{w\in V}exp(u_w^Tv_c)\\ &=\frac{\partial}{\partial v_c}u_o^Tv_c-\frac{\partial}{\partial v_c}\log \sum_{w\in V}exp(u_w^Tv_c) \end{aligned}$

到这里左边的 $\frac{\partial}{\partial v_c}u_o^Tv_c$ 结果为 $u_o$ ，右边的 $\frac{\partial}{\partial v_c}\log \sum_{w\in V}exp(u_w^Tv_c)$ 求解要用到链式法则(chain rule)：
$\begin{aligned} \frac{\partial}{\partial v_c}\log \sum_{w\in V}exp(u_w^Tv_c)&=\frac{1}{\sum_{w\in V}exp(u_w^Tv_c)}\frac{\partial}{\partial v_c}\sum_{x\in V}exp(u_x^Tv_c)\\ &=\frac{1}{\sum_{w\in V}exp(u_w^Tv_c)}\sum_{x\in V}\frac{\partial}{\partial v_c}exp(u_x^Tv_c)\\ &=\frac{1}{\sum_{w\in V}exp(u_w^Tv_c)}\sum_{x\in V}exp(u_x^Tv_c)\frac{\partial}{\partial v_c}u_x^Tv_c\\ &=\frac{1}{\sum_{w\in V}exp(u_w^Tv_c)}\sum_{x\in V}exp(u_x^Tv_c)u_x\\ &=\frac{\sum_{x\in V}exp(u_x^Tv_c)u_x}{\sum_{w\in V}exp(u_w^Tv_c)}\\ &=\sum_{x\in V}\frac{exp(u_x^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}u_x \end{aligned}$

将两个结果带回原式：
$\begin{aligned} \frac{\partial}{\partial v_c}\log\frac{exp(u_o^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}&=\frac{\partial}{\partial v_c}\log exp(u_o^Tv_c)-\frac{\partial}{\partial v_c}\log \sum_{w\in V}exp(u_w^Tv_c)\\ &=\frac{\partial}{\partial v_c}u_o^Tv_c-\frac{\partial}{\partial v_c}\log \sum_{w\in V}exp(u_w^Tv_c)\\ &=u_o-\sum_{x\in V}\frac{exp(u_x^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}u_x \end{aligned}$
其中 $\frac{exp(u_x^Tv_c)}{\sum_{w\in V}exp(u_w^Tv_c)}$ 即为 $p (x ∣ c)$ ，所以上式为：
$\begin{aligned} &=u_o-\sum_{x\in V}p(x|c)u_x \end{aligned}$

扬州小栗旬

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cs224笔记：Lecture 1 Introduction and Word Vectors

Lecture 1: Introduction and Word VectorsRepresenting words as discrete symbols在传统NLP使用discrete symbols表示词，即one-hot编码，各个单词向量之间是**正交(orthogonal)的，因此没有相似性(similarity)的概念。例如：motel=[0,0,0,0,1,0,0]Thote...
复制链接

扫一扫

专栏目录