2020-11-9 吴恩达DL学习-C5 序列模型-W2 自然语言处理与词嵌入(2.7 负采样-1个正采样和K个负采样生成训练集，解决softmax计算量大问题)

本文链接：https://blog.csdn.net/weixin_42555985/article/details/109568931

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

2.7 负采样 Negative sampling

在上节课中，你见到了Skip-Gram模型如何帮助你构造一个监督学习任务，把上下文映射到了目标词上，它如何让你学到一个实用的词嵌入。但是它的缺点就在于softmax计算起来很慢。

在本节课中，你会看到一个改善过的学习问题叫做负采样，它能做到与你刚才看到的Skip-Gram模型相似的事情，但是用了一个更加有效的学习算法，让我们来看看这是怎么做到的。

在本节课中大多数的想法源于Tomas Mikolov，Ilya Sutskever，Kai Chen，Greg Corrado 和 Jeff Dean。

（Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. 2013, 26:3111-3119.）

我们在这个算法中要做的是构造一个新的监督学习问题，那么问题就是给定一对单词，比如orange和juice，我们要去预测这是否是一对上下文词-目标词（context-target）。

在这个例子中orange和juice就是个正样本，那么orange和king就是个负样本，我们把它标为0。
在这里插入图片描述

我们要做的就是采样得到一个上下文词和一个目标词，在这个例子中就是orange 和juice，我们用1作为标记，我把中间这列叫做词（word）。这样生成一个正样本，正样本跟上节课中生成的方式一模一样，先抽取一个上下文词，在一定词距内比如说正负10个词距内选一个目标词，这就是生成这个表的第一行，即orange– juice -1的过程。

然后为了生成一个负样本，你将用相同的上下文词，再在字典中随机选一个词，在这里我随机选了单词king，标记为0。
然后我们再拿orange，再随机从词汇表中选一个词，因为我们设想，如果随机选一个词，它很可能跟orange没关联，于是orange–book–0。
我们再选点别的，orange可能正好选到the，然后是0。
还是orange，再可能正好选到of这个词，再把这个标记为0，注意of被标记为0，即使of的确出现在orange词的前面。

总结一下，生成这些数据的方式是我们选择一个上下文词orange，再选一个目标词juice，这就是表的第一行，它给了一个正样本，上下文，目标词，并给定标签为1。然后我们要做的是给定几次，比如 $k$ 次，我们将用相同的上下文词orange，再从字典中选取随机的词，king、book、the、of等，从词典中任意选取的词，并标记0，这些就会成为负样本。

出现以下情况也没关系，就是如果我们从字典中随机选到的词，正好出现在了词距内，比如说在上下文词orange正负10个词之内。
在这里插入图片描述

接下来我们将构造一个监督学习问题，其中学习算法输入 $x$ ，输入这对词（context和 word），要去预测目标的标签，即预测输出 $y$ 。因此问题就是

给定一对词，像orange和juice，你觉得它们会一起出现么？
你觉得这两个词是通过对靠近的两个词采样获得的吗？
或者你觉得我是分别在文本和字典中随机选取得到的？

这个算法就是要分辨这两种不同的采样方式（正负），这就是如何生成训练集的方法。

那么如何选取 $K$ ？

Mikolov等人推荐小数据集的话， $K$ 从5到20比较好。
如果你的数据集很大， $K$ 就选的小一点。
对于更大的数据集 $K$ 就等于2到5，数据集越小 $K$ 就越大。
那么在这个例子中，我们就用 $K = 4$ 。

从 $x$ 映射到 $y$ 的监督学习模型

下面我们讲讲学习从 $x$ 映射到 $y$ 的监督学习模型。
在这里插入图片描述

上图这是我们从上节课中见到的softmax模型。

在这里插入图片描述

上图这是我们从上节课中得到的训练集，前2列将是新的输入 $x$ ，最后1列将是你要预测的值 $y$ 。为了定义模型，我们将

使用记号 $c$ 表示上下文词，
记号 $t$ 表示可能的目标词，
再用 $y$ 表示0和1，表示是否是一对上下文-目标词。

我们要做的就是定义一个逻辑回归模型，给定输入的 $c$ ， $t$ 对的条件下， $y = 1$ 的概率，即：
$P(y=1|c,t)=\sigma(\theta^T_te_c)$

这个模型基于逻辑回归模型，但不同的是我们将一个sigmoid函数作用于 $\theta^T_te_c$ ，参数和之前一样，你对每一个可能的目标词有一个参数向量 $\theta_t$ 和另一个参数向量 $e_c$ ，即每一个可能上下文词的的嵌入向量，我们将用这个公式估计 $y = 1$ 的概率。

如果你有 $K$ 个样本，你可以把这个看作 $\frac 1k$ 的正负样本比例，即每一个正样本你都有 $K$ 个对应的负样本来训练一个类似逻辑回归的模型。

我们把这个画成一个NN，如果输入词是orange，即词6257，你要做的就是输入one-hot向量，再传递给 $E$ ，通过两者相乘获得嵌入向量 $e_{6257}$ ，你就得到了10,000个可能的逻辑回归分类问题，其中一个将会是用来判断目标词是否是juice的分类器，还有其他的词，比如说可能下面的某个分类器是用来预测king是否是目标词，诸如此类，预测词汇表中这些可能的单词。
在这里插入图片描述

把这些看作10,000个二分类逻辑回归分类器，但并不是每次迭代都训练全部10,000个，我们只训练其中的5个，我们要训练对应真正目标词那一个分类器，再训练4个随机选取的负样本，这就是 $K = 4$ 的情况。

所以不使用一个巨大的10,000维度的softmax，因为计算成本很高，而是把它转变为10,000个二分类问题，每个都很容易计算，每次迭代我们要做的只是训练它们其中的5个，一般而言就是 $K + 1$ 个，其中 $K$ 个负样本和1个正样本。这也是为什么这个算法计算成本更低，因为只需更新 $K + 1$ 个逻辑单元， $K + 1$ 个二分类问题，相对而言每次迭代的成本比更新10,000维的softmax分类器成本低。