本系列讲解NLP任务中的词表示(word representation)方法。
词表示就是用连续(continuous)、稠密(dense)、低维度(low-dimension)的向量表示词的特征,有别于传统nlp任务中使用的one-hot、ngram、tf-idf等特征,词表示是一种用连续浮点数表示的向量,具有稠密、维度低的特点,而传统特征太过于稀疏,且无法有效表达词与词之间的关系(语义相似性、句法关系等),不利于模型学习;良好训练的词向量可以作为神经网络的输入,神经网络结合词与词之间的依赖关系得到句子的特征,最后完成文本分类、序列转换等机器学习任务。有人也把词向量表示叫做词嵌入(word embedding),也就是把词嵌入向量空间,用数学的方法将自然语言中的词表示出来。
本文首先讲解word2vec基本原理,后续还会讲解GloVe、ELMo、GTP和BERT等。
word2vec
word2vec是google在2013年的Efficient Estimation of Word Representations in Vector Space提出并开源的,在word2vec提出来之前,Bengio等人使用前馈神经网络训练语言模型(NNLM),同时得到了词向量。还有人首先利用单隐层神经网络训练词向量,然后利用词向量训练语言模型,word2vec的思想就来源于此,但word2vec之关注词向量,不再继续训练语言模型了。
前馈神经网络语言模型和RNN语言模型
前馈NNLM的结构表示如下:
前馈NNLM的输入是当前词之前的n个词的index(可以理解成每个词的one-hot编码),n个词经过一个共享权重的projection layer后就得到一个nxD维的矩阵(每个词用D维向量表示),然后经过一个tanh激活的隐层,输出层softmax的每一位代表一个词。前馈NNLM的计算量很大,主要表现在两个方面:
1)projection layer和tanh layer之间的非线性层,计算