使用gensim处理文本(2)主题分析与向量转换

本文介绍了如何使用gensim进行文本处理,包括tfidf模型的构建,以及LSA/LSI和LDA模型的应用。通过示例代码展示了如何计算词的tfidf分值,以及如何进行潜在语义分析和主题建模。
摘要由CSDN通过智能技术生成

1、概述

在之前的文章中我们建立了字典文件,并使用词袋模型来表示一个文档,但这种表示方式是基于词频的简单模型。有的时候需要对模型进行转换。

常见的模型有:

  1. tfidf
  2. lsi
  3. lda等

2、tfidf模型

我们使用字典文件可以非常直观生成tfidf模型,tfidf是根据词频和逆词频抽取关键词的一种技术。通俗来讲一个文档中的所有分词只有在本文档中出现的频率越高而在其他文档中出现的词频越低就代表着该词越关键。

请参照如下代码:

from gensim import corpora, models, similarities
corpus = corpora.MmCorpus('bow.mm')
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
for doc in corpus_tfidf:
    print(doc)

上面代码将显示语料库中各个词的tfidf分值



3、LSA/LSI模型

LSA(latent  semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott  Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector  space  model)一样使用向量来表示词(terms)和文档(documents),并通

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值