主要针对当前NLP领域表现较好的词向量模型进行一下整理,分为中文和英文领域。
1.中文
针对中文领域,不需要再去找什么资源,github上提供了中文NLP的一个利器,去里面下载即可。
下载链接:https://github.com/Embedding/Chinese-Word-Vectors
除此之外,由腾讯的AILab发布的词向量模型表现也很不错:https://ai.tencent.com/ailab/nlp/embedding.html
2.英文
其中针对英文词向量,大力推荐word2vec、GloVe、fasttext几个项目开源的pre-trained词向量,在论文中大量引用的这几个模型。
word2vec: https://code.google.com/archive/p/word2vec/
Glove: https://nlp.stanford.edu/projects/glove/
fasttext:
(1)Language identification:https://fasttext.cc/docs/en/language-identification.html#content
(2)基于爬取数据和维基百科训练的157种语言对应的词向量:https://github.com/facebookresearch/fastText/blob/master/docs/crawl-vectors.md
(3)常见的English Word Vectors:https://fasttext.cc/docs/en/english-vectors.html