CS224n Note -- Lecture 1: Introduction and Word Vectors

最新推荐文章于 2022-05-22 12:47:46 发布

mis1205

最新推荐文章于 2022-05-22 12:47:46 发布

阅读量131

点赞数

分类专栏： CS224n 文章标签： nlp

本文链接：https://blog.csdn.net/mis1205/article/details/106930326

版权

CS224n 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

词向量
Word2vec

词向量

Wordnet

WordNet, 一个包含同义词集和上位词的辞典。

Wordnet的劣势

是很好的资源但忽略了细微的一些差别：例如词典中‘proficient’与‘good’认为是同义词，但是这只在某些文本上下文中成立。
忽略了一些单词的含义（即含义不完整）,难以持续更新
偏主观（缺少客观性）
需要人类劳动来创造和调整
无法计算单词相似度

discrete symbols

传统NLP中，我们将单词看作是离散的表示，通过one-hot vector来表示。
One-hot vector表示，由于向量是正交的，因此没法表示他们之间啊的相似度，如果词汇量太多，将使得向量的维度过大。

Representing words by their context

Distributional semantics：一个单词的含义通常由在它附近经常出现的单词给出的。
对于文本中的一个单词w，它的上下文就是出现在它附近的一组单词（在一个划定好size的窗口下）
通过许多包含w的文本中的上下文来构建w的含义表示：

Word2vec

我们为每个单词构建一个密集的向量，使其与出现在相似上下文中的单词向量相似
词向量 word vectors 有时被称为词嵌入 word embeddings 或词表示 word representations 它们是分布式表示 distributed representation
IDEA:

包含大量的文本语料
固定词表中的每一个单词由一个词向量表示
文本中的每个单词位置 t，有一个中心词c，和它的上下文 o（除了 c 的外部单词）。
通过 c 和 o 的词向量相似性来计算 P（o/c）
不断的调整词向量，最大化概率
固定窗口，滑动窗口并计算：

Word2vec的目标函数

对于每个位置 t = 1,…,T，固定窗口大小m，给定中心词 $w_j$ :
$likelihood=L(\theta)=\prod_{t=1}^{T}\prod_{-m \le j \le m\\ \ \ \ \ j\ne0}^{}p(w_{t+j}|w_t;\theta)$
注：$ \theta $ 是需要优化的参数
目标函数 $J(\theta)$ (有时被称为代价函数或损失函数) 是(平均)负对数似然
$J（\theta）=-\frac 1TlogL(\theta)=-\frac1T\sum_{t=1}^T\sum_{-m\le j\le m \\ \ \ \ \ j\ne 0}logP(w_{t+j}|w_t;\theta)$
其中log形式是方便将连乘转化为求和，负号是希望将极大化似然率转化为极小化损失函数的等价问题。

计算

问：如何计算 $P(w_{t+j}|w_t;\theta)$
回答:对于每个单词都是用两个向量
$v_w$ ：当 w 是中心词时
$u_w$ ：当 w 是上下文单词时
对于中心词 c 和上下文单词 o，有：
$P(o|c)=\frac {exp(u_o^Tv_c)}{\sum_{w\epsilon V}exp(u_w^Tv_c)}$
公式中，向量和向量进行点乘。向量之间越相似，点乘结果越大，从而归一化后得到的概率值也越大。模型的训练正是为了使得具有相似上下文的单词，具有相似的向量。

Word2vec prediction function

$P(o|c)=\frac {exp(u_o^Tv_c)}{\sum_{w\epsilon V}exp(u_w^Tv_c)}$
分子取幂函数使得始终可以为正
向量 $u_o$ 和向量 $v_c$ 点乘， $u^Tv=u·v=\sum_{i=1}^nu_iv_i$ ，点乘结果越大，向量之间越相似
对整个词表标准化，给出概率分布

Word2vec objective function gradients

首先我们随机初始化 $u_w \in \Bbb{R^d}$ 和 $v_w \in \Bbb{R^d}$ ，而后使用梯度下降法进行更新
$\frac{\delta}{\delta v_c}logP(o|c) = \frac{\delta}{\delta v_c}log\frac{exp(u_o^Tv_c)}{\sum_{w\in V}{exp(u_w^Tv_c)}}\\ = \frac{\delta}{\delta v_c}(logexp(u_o^Tv_c) - log\sum_{w\in V}{exp(u_w^Tv_c)})\\ = \frac{\delta}{\delta v_c}(u_o^Tv_c - log\sum_{w\in V}{exp(u_w^Tv_c)})\\ = u_o - \frac{\sum_{w\in V}{exp(u_w^Tv_c)}u_w}{\sum_{w\in V}{exp(u_w^Tv_c)}}\\ =u_o - \sum_{w\in V}{\frac{exp(u_w^Tv_c)}{\sum_{w\in V}{exp(u_w^Tv_c)}}}u_w \\ = u_o - \sum_{w\in V}{P(w|c)}u_w\\ 再对 u_o进行偏微分计算，注意这里的 u_o是u_{w=0} 的简写，故可知\\ \frac{\delta}{\delta u_o}logP(o|c) = \frac{\delta}{\delta u_o}log\frac{exp(u_o^Tv_c)}{\sum_{w\in V}{exp(u_w^Tv_c)}}\\ = \frac{\delta}{\delta u_o}(logexp(u_o^Tv_c) - log\sum_{w\in V}{exp(u_w^Tv_c)})\\ = \frac{\delta}{\delta u_o}(u_o^Tv_c - log\sum_{w\in V}{exp(u_w^Tv_c)})\\ = v_c - \frac{\sum{\frac{\delta}{\delta u_o}exp(u_w^Tv_c)}}{\sum_{w\in V}{exp(u_w^Tv_c)}}\\ = v_c - \frac{exp(u_o^Tv_c)v_c}{\sum_{w\in V}{exp(u_w^Tv_c)}}\\ = v_c - \frac{exp(u_o^Tv_c)}{\sum_{w\in V}{exp(u_w^Tv_c)}}v_c\\ = v_c - P(o|c)V_c\\ =(1-P(o|c))v_c$
可以理解，当 $\rightarrow 1$ ，即通过中心词 c 我们可以正确预测上下文词，此时我们不需要调整 $u_o$ ，反之，则相应调整 $u_o$ 。

mis1205

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS224n Note -- Lecture 1: Introduction and Word Vectors

文章目录词向量WordnetWordnet的劣势discrete symbolsRepresenting words by their contextWord2vecWord2vec的目标函数计算Word2vec prediction function梯度优化词向量WordnetWordNet, 一个包含同义词集和上位词的辞典。Wordnet的劣势是很好的资源但忽略了细微的一些差别：例如词典中‘proficient’与‘good’认为是同义词，但是这只在某些文本上下文中成立。忽略了一些单
复制链接

扫一扫