这篇NNLM使训练得到的模型比传统的统计语言模型使用n-gram能建模更远的关系,并且考虑到了词与词之间的相似性,一些相似的词获得了自然的平滑。前者是因为神经网络的结果使得,后者是因为使用了词向量。
其本身是语言模型,为了验证或者说是预测一句话最可能的表达,在预测的过程中产生word embedding 矩阵,在输入层中将词映射为一个m列的向量,也即词的向量表示,NPLM模型结构一共分为3层,输入 映射-隐含-输出
N-gram
N-gram对词的表示是one-hot的离散表示,存在问题:
- 参数空间随着N成指数增长,当词典数量较大时存在维度灾难问题;
- 无法理解词与词之间的内在联系,无法建模出多个相似词的关系。
通过引入词向量,从离散表示到连续表示,可以解决上面的问题:
- one-hot向量维度大小与词典成正比,稠密向量大小是固定值(50~300);
- 稠密向量各维度值是实数,不限于0和1,可以表示连续空间,可以通过计算距离度量词与词之间的相似度。类似的思想还有IR中的向量空