Abstract:TF-IDF算法是一种常用的词频统计方法,常被用于关键词提取、文本摘要、文章相似度计算等。
1.TF-IDF的算法思路
TF词频(Text Frequency):统计出现次数最多的词
IDF逆文档频率(Inverse Document Frequency):大小与一个词的常见程度成反比;即给某些词分配“重要性”权重(平时比较少见而在这篇文章里多次出现的词应给予较高权重,而平时也很常见的则分配较低权重(过滤停用词))
TF X IDF = 某个词的TF-IDF值,某个词对文章的重要性越高,其TF-IDF值越大,值最大的几个词即为关键词
词频数:某个词在文章中的出现次数
词频率标准化,方便不同文章的比较:某个词在文章中的出现次数该文出现次数最多的词的出现次数
词频率标准化,方便不同文章的比较:某个词在文章中的出现次数文章的总词数