李宏毅2020机器学习深度学习(4) Word Embedding

最新推荐文章于 2022-10-17 00:56:59 发布

梆子井欢喜坨

最新推荐文章于 2022-10-17 00:56:59 发布

阅读量320

点赞数 1

分类专栏： # 李宏毅深度学习2020 文章标签：自然语言处理神经网络深度学习

本文链接：https://blog.csdn.net/qq_39610915/article/details/109092527

版权

李宏毅深度学习2020 专栏收录该内容

14 篇文章 17 订阅

订阅专栏

word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达，该表达就是word representation。
把X所属空间的单词映射为到Y空间的多维向量。
在这里插入图片描述
根据上下文学习词汇的含义。
基于统计的方法：
注：向量内积（inner product）

基于预测的方法
假设想要根据 $w_{i-1}$ 预测 $w_i$
将one of N encoding的词向量输入一个NN，输出是一个N维向量（和词典维数相同），每个分量代表这个index对应词为 $w_i$ 的概率。

当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵。

选取NN的隐含层的第一层的输入（图中绿色的部分），用来表示一个单词。（不同词向量不同，第一层的输入也会不同）

在这里插入图片描述
可以继续进行拓展，用前n个单词进行预测

同一个单词（one-hot编码）在不同位置输入，要得到同样的词向量。这就要求扩展以后，每个单词输入的权重相同。

如下图所示：

但这里有个问题，不同的one-hot向量输入，是否有可能得到相同的输出
举例来说，假设输入层到隐藏层的权重矩阵为： $\begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1\\1 & 1 & 1 \end{bmatrix}$
one-hot输入（1,0,0）,（0,1,0)和（0,0,1），输出相同
训练过程的实例如下：
在这里插入图片描述
一般分为CBOW(Continuous Bag-of-Words 与Skip-Gram两种模型。
CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量。　
Skip-Gram模型和CBOW的思路相反，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。