1、概述
在之前的文章中我们建立了字典文件,并使用词袋模型来表示一个文档,但这种表示方式是基于词频的简单模型。有的时候需要对模型进行转换。
常见的模型有:
- tfidf
- lsi
- lda等
2、tfidf模型
我们使用字典文件可以非常直观生成tfidf模型,tfidf是根据词频和逆词频抽取关键词的一种技术。通俗来讲一个文档中的所有分词只有在本文档中出现的频率越高而在其他文档中出现的词频越低就代表着该词越关键。
请参照如下代码:
from gensim import corpora, models, similarities
corpus = corpora.MmCorpus('bow.mm')
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
for doc in corpus_tfidf:
print(doc)
上面代码将显示语料库中各个词的tfidf分值
3、LSA/LSI模型
LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通