台湾大学深度学习课程学习笔记 lecture4 Word Embeddings

最新推荐文章于 2024-01-06 07:35:49 发布

scxyz_

最新推荐文章于 2024-01-06 07:35:49 发布

阅读量889

点赞数 2

分类专栏：公开课学习笔记文章标签：深度学习 word2vec 公开课 skip gram glove

本文链接：https://blog.csdn.net/sscc_learning/article/details/78947280

版权

以下内容和图片均来自台湾大学深度学习课程。
课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html

在之前 lecture2-2 Word Representation 的课程中简单讲解了 Word 处理的传统方法。通过传统方法的局限性引入新的方法 Word Embeddings，从而直接学习得到低维结果，而不是高维学习后再进行降维。

Word Embeddings 有两种方法：word2vec (Mikolov et al. 2013) ，Glove (Pennington et al., 2014)，这节课根据之前的课程，继续介绍。

Word2Vec

Skip-Gram

下面的公式比较复杂，我自己写了都记不住。如果只纠结于公式，反而可能导致不能更好的理解模型本身的含义，建议先去看一下我的另一篇博客，【RNN】理解循环神经网络中的 Skip-Gram ，这篇文章中，没有公式，纯人话解释 Skip-Gram，帮助你先理解模型，再回过头理解公式会清晰很多。

Model

通过这种方法，指定 word 后，一定范围内的其他单词（neighbors
）出现的几率。

其中， $w_I$ 表示指定的 word， $w_O$ 表示指定窗口大小 $C$ 范围内的其他 word。
比如下面例子中的 $w_t$ 其实就代表 $w_I$ ，窗口大小 $C$ 为 $m$ 。 $(w_{t-m},...,w_{t-1})$ 与 $(w_{t+1},...,w_{t+m})$ 就是 $w_O$ ，共 $2m$ 个。

在指定的 word 条件下，指定窗口内其他 word 发生的概率计算公式如下：

根据最大似然估计，应该使得上面的概率结果最大。对上面公式进行取 $log$ 后添加负号后，得到损失函数的表示公式，目标使损失函数最小。

最终输出时，需要将输出层结果进行转换，公式如下，具体含义后面还会详细介绍。
输出结果

通过上面的内容简单引入公式，介绍了各种符号的含义，接下来会对这些内容进行详细解释。

结构

模型的结构很简单，如下图，是一个只有一个隐藏层的神经网络。由于要得到输入的每个 word 出现的概率，所以输入层与输出层神经元数需一致。下图中，输入 $x$ 和输出层 $s$ 数量为10000，隐藏层 $h$ 神经元数为300。

现在对隐藏层权重 $W$ 转换一下思想，注意转换的仅仅是我们的思想，实际上没有对隐藏层做任何改变。
上面的例子中，输入的 $x$ 是10000行，后面的隐藏层共300个神经元，所以 $W$ 是 $10000×300$ 的矩阵。
实际 $x^TW$ 计算的过程，思想其实是像下图左中的样子， $W$ 每一列与 $x^T$ 对应相乘后再相加。如何将想法转换成下图右中的模式呢？请看接下来的例子。

转换想法

由于

最低0.47元/天解锁文章

scxyz_

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
台湾大学深度学习课程学习笔记 lecture4 Word Embeddings

以下内容和图片均来自台湾大学深度学习课程。课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html在之前 lecture2-2 Word Representation 的课程中简单讲解了 Word 处理的传统方法。通过传统方法的局限性引入新的方法 Word Embeddings，从而直接学习得到低维结果，而...
复制链接

扫一扫