word2vec的python应用
词嵌入(Word Embedding)是一项非常重要且应用广泛的技术,可以将文本和词语转换为机器能够接受的数值向量,这里我们详细讨论其概念和实现。
1 简单介绍词向量的由来
语言的表示主要有两种:符号主义和分布式表示。
符号主义中典型的代表是Bag of words,即词袋模型。
分布式表示中典型的代表是Word Embedding,即词嵌入。
具体的由来请参考: 词嵌入来龙去脉 word embedding、word2vec
2 Word2Vec的python应用
gensim是一款开源的Python工具包,用于从非结构化文本中无监督地学习文本隐层的主题向量表示,支持包括TF-IDF、LSA、LDA和Word2Vec在内的多种主题模型算法,并提供了诸如相似度计算、信息检索等一系列常用任务的API接口。
以下是gensim官网对于其中Word2Vec模型的介绍,http://radimrehurek.com/gensim/models/word2vec.html,里面提供了和Word2Vec相关的完整使用文档。
2.1 安装
如果没有gensim的话,使用pip安装即可。
pip install gensim
2.2 语料的下载
另外,gensim仅提供了Word2Vec的模型实现,训练词向量的另一个必须条件是足够大的文本语料。这里我们将要使用的是中文维基百科语料,直接下载即可: