GENSIM 使用笔记2 — 主题模型和相似性查询

最新推荐文章于 2024-07-16 15:14:07 发布

学术状态抽奖器

最新推荐文章于 2024-07-16 15:14:07 发布

阅读量5k

点赞数

分类专栏：技术手札 NLP 文章标签：算法 gensim lda lsi 相似性

本文链接：https://blog.csdn.net/MebiuW/article/details/53870778

版权

这篇笔记详细介绍了如何使用GENSIM库创建主题模型，如TF-IDF、LSI和LDA，并执行相似性查询。首先，通过加载上文创建的字典和语料库，构建TF-IDF模型并序列化。接着，利用TF-IDF模型生成LSI和LDA模型，展示主题信息。最后，阐述了如何进行简单的相似性查询，构建索引进行高效检索。

摘要由CSDN通过智能技术生成

GENSIM 使用笔记1 — 语料和向量空间
 GENSIM 使用笔记2 — 主题模型和相似性查询
在上一个笔记当中，使用gensim针对中文预料创建了字典和语料库，在这一章节中，主要讲下如何创建相应的主题模型和相似度的匹配，对应原教程的第二章和第三章

模型创建

在GENSIM当中，最基本的就是创建TF-IDF模型，随后可以在TF-IDF的基础上创建LSI/LDA等等的主题模型。
GENSIM已经封装的很好了，所以其实这部分会过的非常快（算法具体的内容这里不讲）

那么，首先我们需要加载上一篇笔记当中的数据：

# 首先加载语料库
if os.path.exists('mydict.dic') and os.path.exists('corpus.mm'):
    dictionary = corpora.Dictionary.load('mydict.dic')
    corpus = corpora.MmCorpus('corpus.mm')
    print 'used files generated from string2vector'
else:
    print 'please run string2vector firstly'