gensim
是一个用于主题建模、文档索引和相似性检索的 Python 库。它提供了实现各种自然语言处理算法的工具,支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。
加载
import gensim,os
model = gensim.models.KeyedVectors.load_word2vec_format(os.path.join(data_path, 'util', 'sgns.sogou.bigram.bz2'), encoding = "utf-8")
获取词汇表
- 获取词汇表
vocab = model.index_to_key print(vocab[:5]) # [',', '的', '。', '\ue40c', '、']
- 获取词汇表及索引
vocab_dict = model.key_to_index print(list(vocab_dict.items())[:5]) # [(',', 0), ('的', 1), ('。', 2), ('\ue40c', 3), ('、', 4)]
获取词向量
-
获取单个词的向量:
vector = model['word'] # word是想要获取向量的词
-
获取多个词的向量:
words = ['word1', 'word2', 'word3'] vectors = [model[word] for word in words if word in model.vocab]
-
获取词汇表中的所有词和向量:
for word in model.vocab: vector = model[word] # 可以对每个词和向量进行处理