1、概述
在之前的文章中,我们将文本转化为词向量,并在不同的向量模型中进行转化。并使用lsa与lda进行了潜在语义分析。其中还有一个非常重要的工作就是相似度分析。本章主要介绍在lsa的基础上进行相似度分析。
2、初始化相似度查询模型
首先需要再加字典以及tfidf模型以便于后续的工作,请参照一下代码
from gensim import corpora, models, similarities
dictionary = corpora.Dictionary.load('mydic.dict')
corpus = corpora.MmCorpus('bow.mm')
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
将模型进行lsi转化生成四个lsi的主题空间,当然这个工作也可以使用lda模型来实现
lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=4) # initialize an LSI transformation
corpus_lsi = lsi[corpus_tfidf]
for topic in lsi.print_topics(4):
print(topic[1])
输出效果如下图所示:
初始化相似度查询模型,请惨遭下面代码: