目录
TF-IDF(Term Frequency-Inverse Document Frequency)
LSA(Latent Semantic Analysis,潜在语义分析)
LSI(Latent Semantic Index,潜在语义索引)
LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)
TF-IDF、PageRank、TextRank、LSA、LSI和LDA等文本提取算法有共同之处,将它们放在一起较好。遂成此文。
TF-IDF(Term Frequency-Inverse Document Frequency)
TF-IDF指的是词频-逆文档频率算法,它是一种基于统计的计算方法。常用于评估在一个文档集中,一个词对某文档的重要程度,从算法名称来看,考虑了两点:
(1)词频
基本思想是一个词在文档中出现的次数越多,也就是词频越高,这个词对文档的越重要。比如在一篇描述猫的文章中,猫这个词出现的频率会很高,它对这篇文章是重要的。符合实际。
下面给出重要性的刻画:
假设词在文档