读word2vec经典论文《Efficient Estimation of Word Representations in Vector Space》读书笔记

读了word2vec经典文章《Efficient Estimation of Word Representations in
Vector Space》后,简单记录一下作者提到的三种模型,作为自己的读书笔记

总时间复杂度:O = E * T * Q
E是有多少个把样本从头到尾全部训练一遍的次数epoch
T是每个epoch把样本集合分为多少个batch
Q是每个batch的时间复杂度
这篇文章好像没有分batch
所以T是每个epoch有多少个样本
Q是每个样本的时间复杂度

第一种模型是NNLM(Feedforward Neural Net Language Model):
输入总共有是有V个单词,所以最开始采用one-hot编码是V维。
输入N个单词,预测下一个单词。
每次训练输入待预测单词的前N个单词,每一个单词都使用投影矩阵投影到D维空间中,从待预测单词前面第一个单词到第N个单词,每一个位置对应一个投影矩阵,所以总共有N个投影矩阵w1-wN,每个投影矩阵的尺寸是V * D,这一步计算复杂度应该是N * V * D,但是one-hot编码中V个维度上只有一个数值不为0,所以计算复杂度是N * D。
然后,将投影后,N个D维的单词全连接到一个H维的隐层,这一步的计算复杂度是N * D * H。
最后,再将H维的隐层全连接到一个V维的输出层。(输出维度和原始输入单词的数量相同)。这一步的复杂度是H * V。
一个样本的时间复杂度大约是N * D+N * D * H+H * V

网络如下:
在这里插入图片描述
第二个模型是CBOW模型(Continuous Bag-of-Words Model):

输入总共有是有V个单词,所以最开始采用one-hot编码是V维。
输入前N/2个单词和后N/2个单词,预测中间的单词。
每次训练输入不再是待预测单词的前N个单词,而是待预测单词的前N/2个单词和后N/2个单词,每一个单词都使用投影矩阵投影到D维空间中,不过,这个模型中这N个单词所使用的投影矩阵都是一样的,采用了共享权重的技术,每个投影矩阵的尺寸是V * D,这一步计算复杂度应该是N * V * D,但是one-hot编码中V个维度上只有一个数值不为0,所以计算复杂度是N * D。
然后,将投影后,N个D维的单词先加和成一个D维的单词,不再使用中间的隐层,直接全连接到输出层,输出层采用哈夫曼编码而不是one-hot编码,只需要log2(V)维即可。这一步的复杂度是D * log2(V)。
一个样本的时间复杂度大约是N * D+D * log2(V)

第三个模型是skip-gram模型:
在这里插入图片描述输入总共有是有V个单词,所以最开始采用one-hot编码是V维。
每次输入不再是N个单词,而是一个单词。预测前R个和后R个单词。
每次训练输入只有一个单词,使用投影矩阵投影到D维空间中,投影矩阵的尺寸是V * D,这一步计算复杂度应该是V * D,但是one-hot编码中V个维度上只有一个数值不为0,所以计算复杂度是D。
然后,将投影后,D维的单词,全连接到输出层,输出层是一个单词,这个单词采用哈夫曼编码而不是one-hot编码,只需要log2(V)维即可。这一步的复杂度是D * log2(V)。这一步预测出来的单词应该是前面第R个单词。计算误差反向传播
然后,还是输入的那一个单词再次输入,循环上面的步骤,只不过这次预测出来的单词应该是前面第R-1个单词,计算误差反向传播。
循环上面的步骤,直到预测出来的单词应该是后面第R个单词,计算误差反向传播。
这里的R是【1:C】范围内的随机数,这样,离输入单词距离越远的单词就越难作为样本输出,通过控制样本分布,相当于实现了离输入单词距离越远的单词权重越小的功能。
一个样本的时间复杂度大约是C *(D+D * log2(V))

可见后两个模型的时间复杂度低很多,并且根据论文结果来看训练效果比第一个模型差不了多少。

作者提到,后两个模型,将V维的one-hot编码的单词通过投影矩阵投影到D维的空间中,可以用来提高很多现有存在的NLP应用场景,比如机器翻译、信息检索、问答系统等。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值