1.A Neural Probabilistic Language Model
www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf
Begio的一篇文章,建立语言模型根本的问题是维度灾难,为了解决这个问题使用N-gram,但N-gram的问题是对于训练集中没有出现的句子,概率很小,所以要把N取得小,这样有两点问题:1.上下文较长的情况没有考虑;2.没有考虑词与词之间的相似性
文章提出一个模型同时学习:1.词的分布式表示(减少维度、并考虑了相似性)2.语言概率模型
模型图:
loss function是最大化log likelihood,加正则化项:
2.Three new graphical models for statistical language modelling