【原创】预训练词表示之word2vec(一)

最新推荐文章于 2023-12-31 10:20:28 发布

suvedo

最新推荐文章于 2023-12-31 10:20:28 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：神经网络自然语言处理

本文链接：https://blog.csdn.net/u010567574/article/details/109501184

版权

本系列讲解NLP任务中的词表示(word representation)方法。
词表示就是用连续(continuous)、稠密(dense)、低维度(low-dimension)的向量表示词的特征，有别于传统nlp任务中使用的one-hot、ngram、tf-idf等特征，词表示是一种用连续浮点数表示的向量，具有稠密、维度低的特点，而传统特征太过于稀疏，且无法有效表达词与词之间的关系(语义相似性、句法关系等)，不利于模型学习；良好训练的词向量可以作为神经网络的输入，神经网络结合词与词之间的依赖关系得到句子的特征，最后完成文本分类、序列转换等机器学习任务。有人也把词向量表示叫做词嵌入(word embedding)，也就是把词嵌入向量空间，用数学的方法将自然语言中的词表示出来。
本文首先讲解word2vec基本原理，后续还会讲解GloVe、ELMo、GTP和BERT等。

word2vec

word2vec是google在2013年的Efficient Estimation of Word Representations in Vector Space提出并开源的，在word2vec提出来之前，Bengio等人使用前馈神经网络训练语言模型(NNLM)，同时得到了词向量。还有人首先利用单隐层神经网络训练词向量，然后利用词向量训练语言模型，word2vec的思想就来源于此，但word2vec之关注词向量，不再继续训练语言模型了。

前馈神经网络语言模型和RNN语言模型

前馈NNLM的结构表示如下：
在这里插入图片描述
前馈NNLM的输入是当前词之前的n个词的index（可以理解成每个词的one-hot编码），n个词经过一个共享权重的projection layer后就得到一个nxD维的矩阵（每个词用D维向量表示），然后经过一个tanh激活的隐层，输出层softmax的每一位代表一个词。前馈NNLM的计算量很大，主要表现在两个方面：
1）projection layer和tanh layer之间的非线性层，计算

最低0.47元/天解锁文章

suvedo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【原创】预训练词表示之word2vec(一)

本系列讲解NLP任务中的词表示(word representation)方法。词表示就是用连续(continuous)、稠密(dense)、低维度(low-dimension)的向量表示词的特征，有别于传统nlp任务中使用的one-hot、ngram、tf-idf等特征，词表示是一种用连续浮点数表示的向量，具有稠密、维度低的特点，而传统特征太过于稀疏，且无法有效表达词与词之间的关系(语义相似性、句法关系等)，不利于模型学习；良好训练的词向量可以作为神经网络的输入，神经网络结合词与词之间的依赖关系得到句子的
复制链接

扫一扫