【原创】预训练词表示之word2vec(一)

本系列讲解NLP任务中的词表示(word representation)方法。
词表示就是用连续(continuous)、稠密(dense)、低维度(low-dimension)的向量表示词的特征,有别于传统nlp任务中使用的one-hot、ngram、tf-idf等特征,词表示是一种用连续浮点数表示的向量,具有稠密、维度低的特点,而传统特征太过于稀疏,且无法有效表达词与词之间的关系(语义相似性、句法关系等),不利于模型学习;良好训练的词向量可以作为神经网络的输入,神经网络结合词与词之间的依赖关系得到句子的特征,最后完成文本分类、序列转换等机器学习任务。有人也把词向量表示叫做词嵌入(word embedding),也就是把词嵌入向量空间,用数学的方法将自然语言中的词表示出来。
本文首先讲解word2vec基本原理,后续还会讲解GloVe、ELMo、GTP和BERT等。

word2vec

word2vec是google在2013年的Efficient Estimation of Word Representations in Vector Space提出并开源的,在word2vec提出来之前,Bengio等人使用前馈神经网络训练语言模型(NNLM),同时得到了词向量。还有人首先利用单隐层神经网络训练词向量,然后利用词向量训练语言模型,word2vec的思想就来源于此,但word2vec之关注词向量,不再继续训练语言模型了。

前馈神经网络语言模型和RNN语言模型

前馈NNLM的结构表示如下:
在这里插入图片描述
前馈NNLM的输入是当前词之前的n个词的index(可以理解成每个词的one-hot编码),n个词经过一个共享权重的projection layer后就得到一个nxD维的矩阵(每个词用D维向量表示),然后经过一个tanh激活的隐层,输出层softmax的每一位代表一个词。前馈NNLM的计算量很大,主要表现在两个方面:
1)projection layer和tanh layer之间的非线性层,计算

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值