单词和短语的分布式表示及其组合性

最新推荐文章于 2024-06-09 10:14:53 发布

知更鸟女孩

最新推荐文章于 2024-06-09 10:14:53 发布

阅读量1.1k

点赞数 1

分类专栏： NLP自然语言处理斯坦福深度自然语言处理课文章标签： skip-gram 短语表示 Negative Sampling subsampling

本文链接：https://blog.csdn.net/qq_38151401/article/details/97619363

版权

NLP自然语言处理同时被 2 个专栏收录

12 篇文章

订阅专栏

斯坦福深度自然语言处理课

10 篇文章

订阅专栏

探讨了skip-gram模型在单词和短语分布式表示学习中的应用，通过实验验证了模型在类比推理任务上的有效性，特别关注了高频词子抽样、负采样和短语表示的学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单词和短语的分布式表示及其组合性

1 介绍

2 The Skip-gram Model

单词和短语的分布式表示及其组合性

单词表示的一个固有限制是它们对单词顺序的忽视并且它们无法表示惯用短语。例如，“Canada”和“Air”的意思不能很容易地组合起来得到“Air Canada”。在这个例子的启发下，我们提出了一个在文本中查找短语的简单方法，并证明学习数百万短语的良好向量表示是可能的。

1 介绍

向量空间中单词的分布式表示有助于学习算法，通过对相似的单词进行分组，从而在自然语言处理任务中获得更好的性能。

使用神经网络计算单词表示是非常有趣的，因为所学习的向量显式地编码了许多语言规则和模式。有些令人惊讶的是，其中许多模式都可以表示为线性平移。例如，向量计算的结果vec(“Madrid”)- vec(“Spain”)+ vec(“France”)比任何其他单词向量更接近vec(“Paris”)

如下图所示为skip-gram模型结构，训练目标是学习能够很好地预测邻近单词的单词向量表示：

以下将对skip-gram模型进行若干扩展。在训练中频繁单词的子采样可以显著加快速度(大约2倍- 10倍)，并提高了较不频繁单词表示的准确性。

此外，提出了一种简单的噪声对比估计(NCE)的变体，用于训练skip-gram模型，与之前工作中使用的更复杂的层次结构softmax相比，该模型能够更快地训练频繁单词，并提供更好的向量表示

单词表示受限于它们不能表示由单个单词组合起来的习惯短语。例如，“Boston Globe”是一份报纸，所以它并不是“Boston”和“Globe”含义的自然组合。因此，使用向量来表示整个短语，使得skip-gram模型更具表现力。其他旨在通过组合单词向量来表示句子意思的技术，受益于使用短语向量而不是单词向量。

从基于单词的模型扩展到基于短语的模型相对简单。首先，我们使用数据驱动的方法识别大量短语，然后在训练期间将这些短语视为单个标记。我们开发了一套包含单词和短语的类比推理任务测试集来评估短语向量的质量。测试集中一个典型的类比对是“Montreal”:“MontrealCanadiens”::“Toronto”:“TorontoMaple Leafs”。

如果最接近vec(“Montreal Canadiens”) - vec(“Montreal”) +vec(“Toronto”)，则认为结果

是vec(“Toronto Maple Leafs”)

我们发现，简单的向量加法通常可以产生有意义的结果！这种组合性表明，通过对单词向量表示进行基本的数学运算，可以获得不明显的语言理解程度。

2 The Skip-gram Model

skip-gram模型的训练目标是找到对预测句子或文档中周围单词有用的单词表示形式

（1）损失函数

：训练词的序列

C：为训练上下文的大小（较大的c会导致更多的训练实例，从而导致更高的准确性，但这是以训练时间为代价的）

（2）softmax 函数

其中：

：“输入”向量表示

：输出向量表示

：词汇表中的单词数量

2.1 分层Softmax

其主要优点是不需要对神经网络中的W输出节点进行求值来获得概率分布，只需要对节点求值即可。

层次结构的softmax使用输出层的二叉树表示，以W个单词作为叶节点，并且对于每个节点，显式地表示其子节点的相对概率。它们定义了一个随机的路线，将概率分配给单词。

更精确地说，每个单词w都可以通过从树的根开始的适当路径到达。让n (w, j)表示第j个从根到w的路径上的节点，L (w)是这条路径的长度,所以n (w, 1) =根节点，n (w、L (w)) = w。此外,对于任何内部节点n,让ch (n)是任意固定的子节点。让[[x]] 1如果x是真的,否则为-1。分层softmax定义p(wo | wi)为:

其中：

层次softmax对每个单词w有一个表示，对二叉树的每个内部节点n有一个表示。在我们的工作中，我们使用了一个二叉哈夫曼树，因为它分配短代码给频繁的单词，这导致快速训练。

2.2 负采样

另一种替代层次softmax的方法是噪声对比估计(NCE)，NCE假设一个好的模型应该能够通过逻辑回归将数据与噪声区分开来。虽然NCE可以近似地最大化softmax的log概率，但Skip-gram模型只关心学习高质量的向量表示，因此只要向量表示保持其质量，我们就可以自由地简化NCE。我们通过目标定义了负采样(NEG)：

因此，任务是使用逻辑回归从噪声分布中区分目标词。当数据集较小时，k取值5–20较合适；当数据集较大时，k取值2–5较合适。

2.3 频繁词的子抽样

在非常大的语料库中，最频繁的单词很容易出现数亿次，这些词通常提供的信息价值比罕见的词少，并且经过对数百万个例子的训练，频繁词的向量表示没有显著变化。为了解决罕见词与频繁词之间的不平衡问题，我们采用了一种简单的子抽样方法，训练集中的每个单词根据如下概率计算被丢弃：

其中：

：是单词出现的频率

t：选择阈值，大约在

我们选择这个子抽样公式是因为它积极地对频率大于t的单词进行子抽样，同时保留了频率的排序。这个子抽样在实践中工作得很好。它加快了学习速度，甚至显著提高了罕见词的学习向量的准确性

3 实验

对比了Noise Contrastive Estimation， Negative Sampling，subsampling方法的效果

注：我们将训练数据中出现少于5次的单词从词汇表中剔除

4 学习短语

正如前面所讨论的，许多短语的意思并不是由单个单词的意思简单组合而成的。要学习短语的向量表示，我们首先要找到经常出现在一起的单词，以及不经常出现在其他上下文中的单词。例如，训练数据中的“New York Times”和“Toronto Maple Leafs”被替换为唯一的表示，而“this is”的双字母组合将保持不变。

我们的目标是使用前三个短语来计算第四个短语。我们最好的模型在这个数据集上的准确率达到了72%。

使用如下方法来识别文本中的短语：

其中：

δ是作为折现系数和防止太多的非常罕见的词组成的短语

得分高于所选阈值的bigram将用作短语。通常，我们运行2-4遍阈值递减的训练数据，允许形成由多个单词组成的更长的短语。我们使用一个包含短语的新的类比推理任务来评估短语表征的质量。上图显示了在这个任务中使用的五类类比的例子

4.1短语Skip-Gram结果

这表明：

至少在某些情况下子抽样可以导致更快的训练，也可以提高准确性；
通过增减训练数据集证明了，大量的训练数据是至关重要的。
为了进一步了解不同模型学习到的表示的差异，我们使用不同的模型手工检查了不频繁短语的最近邻居，似乎短语的最佳表示是通过层次软softmax 和子抽样模型学习的。

5 添加组合

我们证明了由 Skip-gram模型学习到的单词和短语表示具有线性结构，这使得使用简单的向量算术进行精确的类比推理成为可能。有趣的是，我们发现 Skip-gram的表示形式呈现出另一种线性结构，这种结构使得通过添加向量表示的元素来有意义地组合单词成为可能。这个现象如下表所示。

通过对训练目标的考察，可以解释向量的可加性。字向量与softmax非线性的输入呈线性关系。通过训练单词向量来预测句子中周围的单词，向量可以被看作是单词出现时上下文的分布。这些值与输出层计算的概率呈对数关系，因此两个词向量的和与两个上下文分布的乘积有关。乘积在这里作为AND函数:两个单词向量都赋予高概率的单词将具有高概率，而其他单词将具有低概率。因此，如果“伏尔加河”经常出现在同一个句子中一起，加上“Russian”和“river”这两个词，这两个词的向量之和就会得到一个与“Volga river”向量相近的特征向量。

6 结论

这项工作有几个关键贡献。我们展示了如何使用 Skip-gram模型训练单词和短语的分布式表示，并证明这些表示具有线性结构，使得精确的类比推理成为可能。本文所介绍的方法也可用于训练所引入的连续词包模型。

由于采用了计算效率高的模型体系结构，我们成功地在比以前公开的模型多几个数量级的数据上训练了模型。这使得学习到的单词和短语表示的质量有了很大的提高，特别是对于罕见的实体。我们还发现，对经常出现的单词进行子抽样，不仅训练速度更快，而且对不常见单词的表示也明显更好。本文的另一个贡献是负采样算法，它是一种非常简单的训练方法，可以学习准确的表示，特别是对于频繁出现的单词。

训练算法的选择和超参数的选择是一个特定于任务的决策，因为我们发现不同的问题具有不同的最优超参数配置。在我们的实验中，影响性能的最关键的决策是模型的选择、结构、向量的大小、子采样率和训练窗口的大小

这项工作的一个非常有趣的结果是，向量这个词可以用简单的向量加法有意义地组合起来。本文提出的另一种学习短语表示的方法是用单个标记简单地表示短语。这两种方法的结合提供了一种强大而简单的方法来表示较长的文本，同时具有最小的计算复杂度。因此，我们的工作可以看作是对现有方法的补充，现有方法试图使用递归矩阵向量操作来表示短语

---------------------------------------------------------------------------------------------------------

参考资料：

http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf