TF-IDF原理
TF-IDF通常应用于文本关键词提取。要提取一个文章的关键词,一个容易想到的思路就是找到出现次数最多的几个词。这是因为如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF)统计。
然而,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词,无法代表文章的关键词。这种类型的词叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。
在把“停用词”全部过滤掉之后。按照“词频”统计得到的频次最多的几个词就可以代表一篇文章的关键词吗?此时,还需要考虑到这些高频词是否是在其他文章中很少出现,只有满足这两个条件,得到的词才是代表这篇文章的关键词。
所以,需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词给予较小的权重,较少见的词给予较大的