GENSIM 使用笔记2 — 主题模型和相似性查询

这篇笔记详细介绍了如何使用GENSIM库创建主题模型,如TF-IDF、LSI和LDA,并执行相似性查询。首先,通过加载上文创建的字典和语料库,构建TF-IDF模型并序列化。接着,利用TF-IDF模型生成LSI和LDA模型,展示主题信息。最后,阐述了如何进行简单的相似性查询,构建索引进行高效检索。
摘要由CSDN通过智能技术生成

GENSIM 使用笔记1 — 语料和向量空间
GENSIM 使用笔记2 — 主题模型和相似性查询
在上一个笔记当中,使用gensim针对中文预料创建了字典和语料库,在这一章节中,主要讲下如何创建相应的主题模型和相似度的匹配,对应原教程的第二章和第三章

模型创建

在GENSIM当中,最基本的就是创建TF-IDF模型,随后可以在TF-IDF的基础上创建LSI/LDA等等的主题模型。
GENSIM已经封装的很好了,所以其实这部分会过的非常快(算法具体的内容这里不讲)

那么,首先我们需要加载上一篇笔记当中的数据:

# 首先加载语料库
if os.path.exists('mydict.dic') and os.path.exists('corpus.mm'):
    dictionary = corpora.Dictionary.load('mydict.dic')
    corpus = corpora.MmCorpus('corpus.mm')
    print 'used files generated from string2vector'
else:
    print 'please run string2vector firstly'

随后,我们需要首先创建最关键的TF-IDF模型,并且可以生成TF-IDF的语料库,并将其序列化,以方便我们的后续使用

#创建一个model
tfidf = models.Tfidf
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值