台湾大学深度学习课程 学习笔记 lecture4 Word Embeddings

以下内容和图片均来自台湾大学深度学习课程。
课程地址:https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html

在之前 lecture2-2 Word Representation 的课程中简单讲解了 Word 处理的传统方法。通过传统方法的局限性引入新的方法 Word Embeddings,从而直接学习得到低维结果,而不是高维学习后再进行降维。

Word Embeddings 有两种方法:word2vec (Mikolov et al. 2013) ,Glove (Pennington et al., 2014),这节课根据之前的课程,继续介绍。

Word2Vec

Skip-Gram

下面的公式比较复杂,我自己写了都记不住。如果只纠结于公式,反而可能导致不能更好的理解模型本身的含义,建议先去看一下我的另一篇博客,【RNN】理解循环神经网络中的 Skip-Gram ,这篇文章中,没有公式,纯人话解释 Skip-Gram,帮助你先理解模型,再回过头理解公式会清晰很多。

Model

通过这种方法,指定 word 后,一定范围内的其他单词(neighbors
)出现的几率。

其中, wI w I 表示指定的 word, wO w O 表示指定窗口大小 C C 范围内的其他 word。
比如下面例子中的 w t 其实就代表 wI w I ,窗口大小 C C m (wtm,...,wt1) ( w t − m , . . . , w t − 1 ) (wt+1,...,wt+m) ( w t + 1 , . . . , w t + m ) 就是 wO w O ,共 2m 2 m 个。
定义

在指定的 word 条件下,指定窗口内其他 word 发生的概率计算公式如下:
概率计算公式

根据最大似然估计,应该使得上面的概率结果最大。对上面公式进行取 log l o g 后添加负号后,得到损失函数的表示公式,目标使损失函数最小。
损失函数

最终输出时,需要将输出层结果进行转换,公式如下,具体含义后面还会详细介绍。
输出结果

通过上面的内容简单引入公式,介绍了各种符号的含义,接下来会对这些内容进行详细解释。

结构

模型的结构很简单,如下图,是一个只有一个隐藏层的神经网络。由于要得到输入的每个 word 出现的概率,所以输入层与输出层神经元数需一致。下图中,输入 x x 和输出层 s 数量为10000,隐藏层 h h 神经元数为300。

模型

现在对隐藏层权重 W 转换一下思想,注意转换的仅仅是我们的思想,实际上没有对隐藏层做任何改变。
上面的例子中,输入的 x x 是10000行,后面的隐藏层共300个神经元,所以 W 10000×300 10000 × 300 的矩阵。
实际 xTW x T W 计算的过程,思想其实是像下图左中的样子, W W 每一列与 x T 对应相乘后再相加。如何将想法转换成下图右中的模式呢?请看接下来的例子。

转换想法

由于

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值