DeepLearning AI-序列模型-第二周

最新推荐文章于 2020-04-01 21:58:24 发布

dayL_W

最新推荐文章于 2020-04-01 21:58:24 发布

阅读量146

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u013181595/article/details/100919305

版权

深度学习专栏收录该内容

16 篇文章 10 订阅

订阅专栏

自然语言处理及词嵌入

词汇表示

之前都是采用词汇表来表示词汇，把词汇表示成一个one-hot向量。比如 man 在词汇表中的第5391位，那么one-hot向量的5391位置为1，其它位置为0。
它的缺点就是：

每个词孤立起来，没有相关性，相关性的泛化能力很弱，因为它们的内积都是 0
维度太大了，一个词汇表比如有 10000，那么one-hot的维度就是1000维，非常庞大，并且稀疏，不利于模型的训练和收敛

词嵌入的表示方法如下图所示：
在这里插入图片描述
一个直观的例子如下图所示，用很多不同的属性来确定一个词汇，比如对于 Man，给定它的属性比如 Gander、Royal、Age、Food、Size等等，就可以大概的描述出这个词汇。但是在实际的词嵌入表示中，它每个维度的含义却不是很清晰，甚至是没有意义的，但它就是可以表示一个词汇的含义以及其他词汇的距离。

把词向量通过PCA或者t-SNE算法映射到二维空间中，可以发现，相关性大的词汇他们在距离上是非常近的，这表示词向量学习到了词汇的相关性和含义。
在这里插入图片描述

词嵌入的使用

在命名体识别中，比如识别 Sally Johnson is an orange farmer。通过orange farmer 可以得知 Sally Johnson 是一个人的名字。如果使用 one-hot 的向量作为输入，当出现一个新的样本 Robert Lin is an apple farmer。由于训练样本中 apple farmer 几乎没有出现过，所以很难识别前面的是一个人名，但是如果使用词嵌入作为输入，apple farmer 和 orange farmer 在词嵌入的表达方式中，这两个词汇距离都是比较接近的。可以很好的识别前面的是一个人名。
在这里插入图片描述

学习词嵌入

构建一个语言模型是学习词嵌入的最好办法。
有语言学家指出，一个词汇完全可以由上下文的单词预测得到，也就是一个单词可以由上下文的词汇表示得到 (具体应该是这么个意思)。比如在例子中，I want a glass of orange ____ 。构建一个语言模型，输入是前面6个词汇的 embeding 向量，经过神经网络训练后，通过softmax预测出空格中词汇的 embeding 向量。通过不断的学习，优化词嵌入向量，可以得到词嵌入矩阵。
在这里插入图片描述
词向量的训练分为 skip-gram 和 CBOW 2种方法。使用 skip-gram 的方法就是根据上下文的单词去预测中心词，损失函数是正确词汇出现的概率，如下图所示：

在概率的计算中，分母需要计算目标词汇和其他10000个词汇的距离，耗费非常多的时间，一般在词向量的训练中都会做一个负采样。
下面是负采样的方法：
在这里插入图片描述
在句子中上下文的词汇是 orange ，目标词汇是 juice，这是一个正样本，但是 orange-king 等等是没有出现过的，这是一个负样本，构建 k 个负样本之后用于模型的训练，这样就无需计算和其他词汇出现的概率了。这里 k 成为负采样率，词汇量比较大的时候，k 比较小，词汇量小的时候 k 可以设置的大一点。