使用gensim处理文本（3）相似度分析

最新推荐文章于 2024-08-07 08:04:29 发布

孙宝龙

最新推荐文章于 2024-08-07 08:04:29 发布

阅读量3.6k

点赞数 1

分类专栏：自然语言处理文章标签： gensim nlp 相似度分析

本文链接：https://blog.csdn.net/amao1998/article/details/80364708

版权

本文介绍了如何在gensim库中进行相似度分析，通过lsa模型进行文本转换，然后使用余弦相似度查询语料之间的相似度，展示了相似度查询的效果和应用。

摘要由CSDN通过智能技术生成

1、概述

在之前的文章中，我们将文本转化为词向量，并在不同的向量模型中进行转化。并使用lsa与lda进行了潜在语义分析。其中还有一个非常重要的工作就是相似度分析。本章主要介绍在lsa的基础上进行相似度分析。

2、初始化相似度查询模型

首先需要再加字典以及tfidf模型以便于后续的工作，请参照一下代码

from gensim import corpora, models, similarities
dictionary = corpora.Dictionary.load('mydic.dict')
corpus = corpora.MmCorpus('bow.mm')
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]

将模型进行lsi转化生成四个lsi的主题空间，当然这个工作也可以使用lda模型来实现

lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=4) # initialize an LSI transformation
corpus_lsi = lsi[corpus_tfidf]
for topic in lsi.print_topics(4):
    print(topic[1])

输出效果如下图所示：