使用gensim处理文本（2）主题分析与向量转换

最新推荐文章于 2024-08-19 20:14:18 发布

孙宝龙

最新推荐文章于 2024-08-19 20:14:18 发布

阅读量1.5k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 lda tfidf lsa lsi

本文链接：https://blog.csdn.net/amao1998/article/details/80359590

版权

本文介绍了如何使用gensim进行文本处理，包括tfidf模型的构建，以及LSA/LSI和LDA模型的应用。通过示例代码展示了如何计算词的tfidf分值，以及如何进行潜在语义分析和主题建模。

摘要由CSDN通过智能技术生成

1、概述

在之前的文章中我们建立了字典文件，并使用词袋模型来表示一个文档，但这种表示方式是基于词频的简单模型。有的时候需要对模型进行转换。

常见的模型有：

tfidf
lsi
lda等

2、tfidf模型

我们使用字典文件可以非常直观生成tfidf模型，tfidf是根据词频和逆词频抽取关键词的一种技术。通俗来讲一个文档中的所有分词只有在本文档中出现的频率越高而在其他文档中出现的词频越低就代表着该词越关键。

请参照如下代码：

from gensim import corpora, models, similarities
corpus = corpora.MmCorpus('bow.mm')
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
for doc in corpus_tfidf:
    print(doc)

上面代码将显示语料库中各个词的tfidf分值

3、LSA/LSI模型

LSA(latent semantic analysis)潜在语义分析，也被称为LSI(latent semantic index)，是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents)，并通