1. Efficient Estimation of Word Representations in Vector Space (Google 2013)
word2vec的奠基性论文之一,由Google的Tomas Mikolov提出。该论文提出了CBOW和Skip-gram两种word2vec模型结构。
2. Distributed Representations of Words and Phrases and their Compositionality (Google 2013)
word2vec的另一篇奠基性论文。详细描述了Skip-gram模型,包括模型的具体形式和Hierarchical Softmax、Negative Sampling两种可行的训练方法。
3. word2vec Parameter Learning Explained (Umich 2016)
Mikolov的两篇代表作标志了word2vec的诞生,但论文中忽略了一些细节,不易懂。后来,Xin Rong博士对word2vec进行了详细的解释,比如,词向量如何抽取,具体的训练过程等。