文章来源本文章是汇总阮一峰的博客,通俗易懂,值得关注
应用
提取一篇文章的关键词。一篇文章关键词特性是:在文章中出现的频率高,但是一般场景中并非常见。
基本介绍
TF—term frequency,词频;
IDF—Inverse Document Frequency,逆文档频率,其大小与词语在一般场景中常见程度成反比,及一般场景出现频率越低,其值越大;
综上,如果一篇文章中如果某个词语出现频率特别高,但是在一般场景并非常见,可知他是这篇文章的关键词。将TF*IDF来代表此文章一个单词的重要性程度。
算法细节
TF=某词在文章中出现的频率/文章的总次数;
(或者使用:TF=某词在文章中出现的频率/文章中出现次数最多的词语出现次数)
IDF=log(语料库文档总数/(包含该词的文档数+1))
TF-IDF值:TF*IDF
其他
1.搜索与关键词最相关的文章:信息检索时,对于每个文档,都可以分别计算一组搜索词的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档;
2.缺点:仅以词频作为衡量标准不全面,诸如位置信息也很重要,比如每一段的第一句话中出现的词语,权重应该较大。