Word2Vec - gensim模块（2/3）

Chatopera 研发团队

于 2020-10-11 12:51:51 发布

阅读量335

点赞数

分类专栏：聊天机器人文章标签：聊天机器人自然语言理解自然语言处理机器学习人工智能

本文链接：https://blog.csdn.net/samurais/article/details/109010490

版权

聊天机器人专栏收录该内容

121 篇文章 34 订阅

订阅专栏

Word2Vec完成了从文字，句子到空间向量的映射，是计算相似度和检索常用的方法。在使用机器学习技术训练文本以前，常用来做Word Embedding。

在上一篇中，给出了相似性计算的原理，本篇介绍在python环境下一个快速完成word2vec训练和使用的工具包。

Get started gensim

https://github.com/Samurais/word2vec_get_started

训练

构建词汇表
dict
将文件(doc collection)按行处理成向量
corpus

corpus = []
corpus_memory_friendly = MyCorpus()
for vector in corpus_memory_friendly:
    corpus.append(vector)

corpora.MmCorpus.serialize('../data/deerwester.mm', corpus)

使用 corpus 训练 transform

dictionary = corpora.Dictionary.load('../data/deerwester.dict')
corpus = corpora.MmCorpus('../data/deerwester.mm')
lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=2)

transfrom有很多种，比如 tf-idf, lsi, etc.

不同transform可以 chain起来。有的transform可以在初始化后，使用append的模式更新，有的则不能。

topic用来指代被分布到多维空间的doc。对于 lsi可以等可以指定多维，根据语料大小衡量。

使用余弦距离计算相似度

doc = "Human computer interaction"
vec_bow = dictionary.doc2bow(doc.lower().split())
vec_lsi = lsi[vec_bow]

index = similarities.MatrixSimilarity(lsi[corpus])
sims = index[vec_lsi]

sims = sorted(enumerate(sims), key=lambda item: -item[1])
print(sims)