使用gensim处理文本(3)相似度分析

1、概述

在之前的文章中,我们将文本转化为词向量,并在不同的向量模型中进行转化。并使用lsa与lda进行了潜在语义分析。其中还有一个非常重要的工作就是相似度分析。本章主要介绍在lsa的基础上进行相似度分析。

2、初始化相似度查询模型

首先需要再加字典以及tfidf模型以便于后续的工作,请参照一下代码

from gensim import corpora, models, similarities
dictionary = corpora.Dictionary.load('mydic.dict')
corpus = corpora.MmCorpus('bow.mm')
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]

将模型进行lsi转化生成四个lsi的主题空间,当然这个工作也可以使用lda模型来实现

lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=4) # initialize an LSI transformation
corpus_lsi = lsi[corpus_tfidf]
for topic in lsi.print_topics(4):
    print(topic[1])

输出效果如下图所示:


初始化相似度查询模型,请惨遭下面代码:


                
  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值