读论文《Efficient Estimation of Word Representations in Vector Space》

读论文《Efficient Estimation of Word Representations in Vector Space》


原文地址:http://blog.csdn.net/qq_31456593/article/details/77513173

introduce

词的分布式表示(又称词嵌入,word embedding)因为这篇文章开始大火,原来的word embedding只是神经网络语言模型的副产物,而该论文的主要的目标是训练具有语义特征的word embedding。

本文体提出了2个模型,一个是Continuous Bag-of-WordS Model(CBOW),一个是Continuous Skip-gram Model(Skip-gram)
其中CBOW是用上下文的词预测中间词,Skip-gram是用中间词预测上下文的词。

考虑到原来的神经语言模型算法复杂度高,训练时间长,本文的两个网络都去掉了非线性隐藏层,并在输出层使用哈夫曼树结构进行hierarchical softmax,使复杂度大大降低,一天的时间就可以训练16亿单词量的语料。且最终生成的词嵌入满足类似king-man+women=queen的语义关系。

method

论文的2个模型如下文所示

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值