CS224n NLP with Deep Learning（2）词向量表示 word2vec

Avada__Kedavra

已于 2022-06-23 10:35:28 修改

阅读量257

点赞数

分类专栏： NLP 文章标签：自然语言处理机器学习人工智能

于 2020-12-01 23:42:35 首次发布

本文链接：https://blog.csdn.net/u014128608/article/details/109323456

版权

NLP 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

引言

youtube观看链接：youtube列表

bilibili观看链接：斯坦福CS224n

本讲主要简述以下7个方面：

Word meaning
Word2vec introduction
Research highlight：前沿研究
Word2vec objective function gradients：目标函数的梯度
Optimization refresher
Assignment 1 notes
Usefulness of word2vec

1. Word meaning

计算机中是如何获取单词可用的词义的呢？

在过去很长的时间里，一直通过分类词典来处理词义。对于英文来说，通常的方法是使用WordNet。它根据单词层次关系和同义词关系构成单词网络。著名自然语言处理库NLTK中就包含了WordNet，下面是使用WordNet的两个例子：
在这里插入图片描述
左边的例子是获取单词“good”各个词义的近义词，右边例子是获取单词“panda”的上位词（is a的关系，例如”熊猫“是”动物“，”熊猫“是”哺乳动物“）。

从symbolic representations到distributed representations

然而WordNet存在着一些缺陷，例如无法反映出同义词的一些细微差别；词汇的含义存在一定的主观倾向；需要大量人力来维护；难以量化单词的相似度等。

此前，无论是规则学派，还是统计学派，绝大多数NLP work都将词语作为最小单位。这相当于将词语离散化表示，即「one-hot」表示，例如我们有一个一共有5个单词的词汇表，其中单词“hotel”和“motel”分别是第2、第4个，那么它们可以用如下向量表示：
$h o t e l = [0, 1, 0, 0, 0]$ $m o t e l = [0, 0, 0, 1, 0]$
在不同的语料中，词表大小不同。Google的1TB语料词汇量是1300万，这个向量的确太长了。

one-hot 形式虽然简单，但是也存在许多问题，比如：

维度灾难，这样稀疏的向量，存储和训练都会造成巨大的开销。
每个向量都是正交的（点积为0），欧式距离也都相等，无法直接衡量每个单词的相似度。例如motel 与 hotel 应有一定的相似性。

通过上下文来表征词义

针对上面的相似度的问题，实际上后面有人想到了使用「构建词语相似度表」（word-similarity table）的方式来解决，这样首先需要人工得确定每两个词的相似性程度，这显然是不可能完成的任务，那通过WordNet来获取相似度呢？这样可以小范围的实现，但是明显WordNet是很不完整的。

于是人们想根据单词的特性（比如一起出现的上下文）来构造稠密（dense）的向量来表示单词，使其具有表征词义的能力。

在这里插入图片描述

最后得到的向量与下图类似。这种表示单词的方法称作词向量（Word Vectors），也称做词嵌入（Word Embeddings）或词表示（Word Representations）。这样的词向量既可以较为容易地得到，也可以利用余弦相似度等方法计算单词的相似度。

2. Word2vec introduction

学习神经网络word embeddings的基本思路

定义一个以预测某个单词的上下文的模型：
$p(context|w_{t})=…$
损失函数定义如下：表示准确率是25%，损失则为75%，准确为100%，损失为0
$J=1-p(w_{-t}|w_{t})$
其中 $w_{-t}$ 表示 $w_{t}$ 的上下文（负号通常表示除了某某之外），如果完美预测，损失函数为零。

然后在一个大型语料库中的不同位置得到训练实例，调整词向量，最小化损失函数。

Then you just pray and depend on the magic of deep learning
在这里插入图片描述

word2vec 根据输入输出关系定义了两个重要的模型：

CBOW：已知上下文预测当前词
skip-gram：已知当前词预测上下文

两种较为高效的训练方法：

Hierarchical Softmax
Negative Sampling

2.1 ship-gram

在这里插入图片描述
上图即为skip-gram模型。skip-gram的思路是：每一个步都取一个词作为中心词汇 (center word)，接着我们用这个词来预测给定窗口（window）大小内的上下文单词 (context word) 。即通过中心词去预测上下文，给定一个中心词汇，预测某个单词在它上下文中出现的概率。学习的是输入输出词的向量。

对于中心词汇左右两边都有相同的概率分布。

既然每个词 $w_{t}$ 都决定了相邻的词 $w_{t+j}$ ，基于极大似然估计的方法，希望所有样本的条件概率 $p(w_{t+j}|w_{t})$ 之积最大。因此word2vec的目标函数定义为所有位置的预测结果的乘积：
$J^{'}(\theta)=\prod_{t=1}^{T}\prod_{-m\leqslant j\leqslant m,j\neq 0}p(w_{t+j}|w_{t};\theta )$
其中的theta也是参数，是词汇的向量表示，也就是每个词汇向量的唯一表示参数。m表示窗口半径。

要最大化目标函数，对其取个负对数，得到损失函数——对数似然函数的相反数，然后对其最小化，机器学习人员喜欢最小化。
$J(\theta)=-\frac{1}{T}\sum_{t=1}^{T}\sum_{-m\leqslant j\leqslant m,j\neq 0}logp(w_{t+j}|w_{t})$

图片中上面的目标函数表示的是，假设现在我们有一段很长的文本，其中包含足够的词汇序列和真正的行文（行文，指完整的句子）。接下来，遍历文中的所有位置，对于文本中的每个位置，我们都会定义一个围绕中心词汇的大小为2m的窗口，中心词前后各m个单词。这样就得到一个概率分布，可以根据中心词汇给出其上下文词汇出现的概率。然后我们就设置模型的参数，让上下文中所有词汇出现的概率，都尽可能地高。