论文笔记--Efficient Estimation of Word Representations in Vector Space

1. 文章简介

  • 标题:Efficient Estimation of Word Representations in Vector Space
  • 作者:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
  • 日期:2013
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了两种Word2Vec模型(CBOW, Skip-gram),可以在大量的语料库上快速训练出高质量的词向量。且Word2Vec的词向量不仅可以保持相似单词的词向量相近,还可以保持词向量之间的线性操作(如 K i n g − m a n + w o m a n ≈ Q u e e n King-man+woman \approx Queen Kingman+womanQueen)。
  由于训练方法相比于传统的NNLM(Neural Network Language Model)更快,文章可以在更大的数据集上训练更高维度的词向量,从而词向量表达更丰富。数值实验表明Word2Vec得到的词向量质量更高(见第四节)。

3 文章重点技术

3.1 NNLM(Neural Network Language Model)

3.1.1 NNLM

  Word2Vec的基本架构基于[1]提出的NNLM。所谓LM(Language Model,语言模型),即通过前面的token预测当前的token。如下图所示,在输入层,给定当前单词的上文n个单词,模型首先对每个单词进行编码。NNLM采用的编码方式为Table look-up,即通过预先定义的hash表对一些常见的token进行映射,使用时直接查找当前token在映射表 C \mathcal{C} C中对应的编码即可。得到当前时刻 t t t对应的 N N N(对应图中的 n n n)个上文的编码分别为 C ( w t − N ) , … , C ( w t − 1 ) C(w_{t-N}), \dots, C(w_{t-1}) C(wtN),,C(wt1),其中每个token的编码 C t − i ∈ R D , i = 1 , … , N C_{t-i}\in \mathbb{R}^D, i = 1, \dots, N Cti

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值